ByteDance study finds that asking LMMs questions beats making it transcribe text for long document training
Signal
72
Hype
28
En 3 lignesByteDance Seed montre qu'un modèle 7B répond mieux aux questions sur documents longs et visuels que des modèles bien plus grands, même sur documents 4× plus longs que ceux vus en entraînement. L'approche clé : apprentissage par questions plutôt que transcription textuelle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain