Retour au feed
arXiv cs.CL·

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

Signal
72
Hype
28
En 3 lignesLatentOmni propose un cadre de raisonnement audio-visuel utilisant un espace latent unifié au lieu de chaînes de pensée textuelles explicites. Le modèle intercale le raisonnement textuel avec des états latents audio-visuels, introduit OSPE pour la cohérence temporelle, et s'appuie sur LatentOmni-Instruct-35K (35K trajectoires annotées). Surpasse les baselines textuelles sur les benchmarks audio-visuels.
Lire la source
Ton avis ?
RaisonnementPapers

Résumé généré par Claude — vérifié par l'humain