arXiv cs.AI·19 mai 2026

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Signal

Hype

En 3 lignesOptimusVLA, un modèle Vision-Langage-Action hiérarchique, améliore la manipulation robotique via deux mémoires : Global Prior Memory (remplace le bruit gaussien par des priors de trajectoires similaires) et Local Consistency Memory (assure la cohérence temporelle). Résultats : 98.6% sur LIBERO, +13.5% vs pi_0 sur CALVIN, 2.9x plus rapide en inférence.

Lire la source

Ton avis ?

Vision Robotique Agents IA Benchmarks

Résumé généré par Claude — vérifié par l'humain

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Autres angles sur ce sujet