arXiv cs.AI·19 mai 2026

CoLLM: Continuous Adaptation for SLO-Aware LLM Serving on Shared GPU Clusters

Signal

Hype

En 3 lignesCoLLM unifie l'affinage fédéré (FL PEFT) et l'inférence sur des clusters GPU partagés en edge. Le système coordonne en temps réel le partage de paramètres via des stratégies d'adaptateurs fantômes et équilibre dynamiquement les charges pour optimiser qualité du modèle et latence. Évaluation montre 3x meilleur goodput vs systèmes existants.

Lire la source

Ton avis ?

Fine-tuning Infrastructure

Résumé généré par Claude — vérifié par l'humain

CoLLM: Continuous Adaptation for SLO-Aware LLM Serving on Shared GPU Clusters

Autres angles sur ce sujet