ModeSwitch-LLM: A Lightweight Phase-Aware Controller for Cross-Mode LLM Inference on a Single GPU
Signal
72
Hype
18
En 3 lignesModeSwitch-LLM est un contrôleur léger qui route chaque requête vers un mode d'inférence optimal (FP16, quantization, speculative decoding, GPTQ+prefix caching, INT8+continuous batching) sur GPU unique. Testé sur Llama-3.1-8B sur A100, il atteint 2.10x speedup latence et 51.7% réduction énergie par token avec précision préservée (+0.17pp vs FP16).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain