A More Word-like Image Tokenization for MLLMs
DiVT (Disentangled Visual Tokenization) regroupe les embeddings de patches en unités sémantiques cohérentes pour les MLLMs, créant des tokens visuels discrets et significatifs plutôt qu'un flux continu. Adapte le budget de tokens à la complexité de l'image, réduisant mémoire et latence tout en améliorant la compatibilité avec les LLMs.