LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning
Signal
72
Hype
28
En 3 lignesLatentOmni propose un cadre de raisonnement audio-visuel utilisant un espace latent unifié au lieu de chaînes de pensée textuelles explicites. Le modèle intercale le raisonnement textuel avec des états latents audio-visuels, introduit OSPE pour la cohérence temporelle, et s'appuie sur LatentOmni-Instruct-35K (35K trajectoires annotées). Surpasse les baselines textuelles sur les benchmarks audio-visuels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain