MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
Signal
72
Hype
25
En 3 lignesMemOCR est un agent mémoire multimodal qui compresse les historiques d'interaction longues en images structurées avec densité informationnelle adaptative. Entraîné par RL avec objectifs sensibles au budget, il surpasse les baselines textuelles sur des benchmarks QA multi-hop et mono-hop sous contraintes de contexte extrêmes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain