OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism
Signal
82
Hype
15
En 3 lignesOxyGen propose une gestion unifiée du cache KV pour l'inférence de modèles Vision-Langage-Action (VLA) sous parallélisme multi-tâches. Implémenté sur π₀.₅, le système atteint 3.7× d'accélération sur RTX 4090 et Jetson AGX Thor, livrant 200+ tokens/s et 70 Hz simultanément sans dégradation de qualité.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain