Retour au feed
arXiv cs.AI·

OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism

Signal
82
Hype
15
En 3 lignesOxyGen propose une gestion unifiée du cache KV pour l'inférence de modèles Vision-Langage-Action (VLA) sous parallélisme multi-tâches. Implémenté sur π₀.₅, le système atteint 3.7× d'accélération sur RTX 4090 et Jetson AGX Thor, livrant 200+ tokens/s et 70 Hz simultanément sans dégradation de qualité.
Lire la source
Ton avis ?
VisionAgents IARobotiqueBenchmarks

Résumé généré par Claude — vérifié par l'humain