Retour au feed
arXiv cs.AI·

Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval

Signal
72
Hype
25
En 3 lignesVisual Agentic Memory (VAM) est un framework sans entraînement pour la compréhension vidéo longue. Il combine indexation en ligne sélective, mémoire hiérarchique et récupération agentique. Sur OVO-Bench, VAM atteint 68.41 (vs 67.46 pour Gemini 3 Flash seul) et 17.11% sur MM-Lifelong (105.6h sur 51 jours).
Lire la source
Ton avis ?
VisionAgents IAGeminiRaisonnement

Résumé généré par Claude — vérifié par l'humain