Retour au feed
arXiv cs.AI·

Towards Multi-Model LLM Schedulers: Empirical Insights into Offloading and Preemption

Signal
75
Hype
15
En 3 lignesÉtude empirique des défis de scheduling multi-modèles LLM sur hardware hétérogène. Les auteurs quantifient l'impact du layer offloading (dégradation non-linéaire du throughput, sensibilité modèle-dépendante) et de la préemption (coût dominé par rechargement d'état). Identifie features critiques pour futurs schedulers.
Lire la source
Ton avis ?
InfrastructureBenchmarksRaisonnement

Résumé généré par Claude — vérifié par l'humain