Retour au feed
arXiv cs.AI·

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

Signal
78
Hype
15
En 3 lignesPALS est un système d'optimisation de l'inférence LLM intégré à vLLM qui traite les limites de puissance GPU comme un paramètre de contrôle ajustable. En combinant modèles de puissance-performance hors ligne et contrôle par rétroaction, il améliore l'efficacité énergétique jusqu'à 26,3% et réduit les violations QoS de 4x à 7x sur modèles denses et MoE.
Lire la source
Ton avis ?
InfrastructureBenchmarksOutils

Résumé généré par Claude — vérifié par l'humain