Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval
Signal
72
Hype
25
En 3 lignesVisual Agentic Memory (VAM) est un framework sans entraînement pour la compréhension vidéo longue. Il combine indexation en ligne sélective, mémoire hiérarchique et récupération agentique. Sur OVO-Bench, VAM atteint 68.41 (vs 67.46 pour Gemini 3 Flash seul) et 17.11% sur MM-Lifelong (105.6h sur 51 jours).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain