arXiv cs.AI·19 mai 2026

OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism

Signal

Hype

En 3 lignesOxyGen propose une gestion unifiée du cache KV pour l'inférence de modèles Vision-Langage-Action (VLA) sous parallélisme multi-tâches. Implémenté sur π₀.₅, le système atteint 3.7× d'accélération sur RTX 4090 et Jetson AGX Thor, livrant 200+ tokens/s et 70 Hz simultanément sans dégradation de qualité.

Lire la source

Ton avis ?

Vision Agents IA Robotique Benchmarks

Résumé généré par Claude — vérifié par l'humain

OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism

Autres angles sur ce sujet