arXiv cs.AI·19 May 2026

OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism

Signal

Hype

In three linesOxyGen proposes unified KV cache management for Vision-Language-Action (VLA) model inference under multi-task parallelism. Implemented on π₀.₅, the system achieves 3.7× speedup on RTX 4090 and Jetson AGX Thor, delivering 200+ tokens/s and 70 Hz simultaneously without quality degradation.

Read source

Your take?

Vision AI Agents Robotics Benchmarks

Summary generated by Claude — human-verified

OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism

Other angles on this story