Retour au feed
arXiv cs.AI·

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Signal
72
Hype
25
En 3 lignesMemOCR est un agent mémoire multimodal qui compresse les historiques d'interaction longues en images structurées avec densité informationnelle adaptative. Entraîné par RL avec objectifs sensibles au budget, il surpasse les baselines textuelles sur des benchmarks QA multi-hop et mono-hop sous contraintes de contexte extrêmes.
Lire la source
Ton avis ?
Agents IARaisonnementReinforcement learningVision

Résumé généré par Claude — vérifié par l'humain