arXiv cs.AI·19 May 2026

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Signal

Hype

In three linesOptimusVLA, a hierarchical Vision-Language-Action model, improves robotic manipulation via two memories: Global Prior Memory (replaces Gaussian noise with trajectory priors) and Local Consistency Memory (enforces temporal coherence). Results: 98.6% on LIBERO, +13.5% vs pi_0 on CALVIN, 2.9x inference speedup.

Read source

Your take?

Vision Robotics AI Agents Benchmarks

Summary generated by Claude — human-verified

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Other angles on this story