arXiv cs.AI·22 mai 2026

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

Signal

Hype

En 3 lignesPALS est un système d'optimisation de l'inférence LLM intégré à vLLM qui traite les limites de puissance GPU comme un paramètre de contrôle ajustable. En combinant modèles de puissance-performance hors ligne et contrôle par rétroaction, il améliore l'efficacité énergétique jusqu'à 26,3% et réduit les violations QoS de 4x à 7x sur modèles denses et MoE.

Lire la source

Ton avis ?

Infrastructure Benchmarks Outils

Résumé généré par Claude — vérifié par l'humain

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

Autres angles sur ce sujet