Retour au feed
arXiv cs.AI·

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Signal
78
Hype
25
En 3 lignesOptimusVLA, un modèle Vision-Langage-Action hiérarchique, améliore la manipulation robotique via deux mémoires : Global Prior Memory (remplace le bruit gaussien par des priors de trajectoires similaires) et Local Consistency Memory (assure la cohérence temporelle). Résultats : 98.6% sur LIBERO, +13.5% vs pi_0 sur CALVIN, 2.9x plus rapide en inférence.
Lire la source
Ton avis ?
VisionRobotiqueAgents IABenchmarks

Résumé généré par Claude — vérifié par l'humain