TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens
Signal
72
Hype
25
En 3 lignesTTE-Flash remplace les traces explicites de Chain-of-Thought par des tokens latents pour accélérer les représentations multimodales. Le modèle TTE-Flash-2B surpasse ses équivalents CoT explicites sur MMEB-v2 tout en réduisant le coût d'inférence. Les tokens latents restent interprétables textuellement et visuellement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain