Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation
Signal
78
Hype
25
En 3 lignesOptimusVLA, un modèle Vision-Langage-Action hiérarchique, améliore la manipulation robotique via deux mémoires : Global Prior Memory (remplace le bruit gaussien par des priors de trajectoires similaires) et Local Consistency Memory (assure la cohérence temporelle). Résultats : 98.6% sur LIBERO, +13.5% vs pi_0 sur CALVIN, 2.9x plus rapide en inférence.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain