CoLLM: Continuous Adaptation for SLO-Aware LLM Serving on Shared GPU Clusters
Signal
72
Hype
18
En 3 lignesCoLLM unifie l'affinage fédéré (FL PEFT) et l'inférence sur des clusters GPU partagés en edge. Le système coordonne en temps réel le partage de paramètres via des stratégies d'adaptateurs fantômes et équilibre dynamiquement les charges pour optimiser qualité du modèle et latence. Évaluation montre 3x meilleur goodput vs systèmes existants.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain