arXiv cs.CL·22 mai 2026

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

Signal

Hype

En 3 lignesLatentOmni propose un cadre de raisonnement audio-visuel utilisant un espace latent unifié au lieu de chaînes de pensée textuelles explicites. Le modèle intercale le raisonnement textuel avec des états latents audio-visuels, introduit OSPE pour la cohérence temporelle, et s'appuie sur LatentOmni-Instruct-35K (35K trajectoires annotées). Surpasse les baselines textuelles sur les benchmarks audio-visuels.

Lire la source

Ton avis ?

Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

Autres angles sur ce sujet