arXiv cs.LG·25 mai 2026

ModeSwitch-LLM: A Lightweight Phase-Aware Controller for Cross-Mode LLM Inference on a Single GPU

Signal

Hype

En 3 lignesModeSwitch-LLM est un contrôleur léger qui route chaque requête vers un mode d'inférence optimal (FP16, quantization, speculative decoding, GPTQ+prefix caching, INT8+continuous batching) sur GPU unique. Testé sur Llama-3.1-8B sur A100, il atteint 2.10x speedup latence et 51.7% réduction énergie par token avec précision préservée (+0.17pp vs FP16).

Lire la source

Ton avis ?

Llama Benchmarks

Résumé généré par Claude — vérifié par l'humain

ModeSwitch-LLM: A Lightweight Phase-Aware Controller for Cross-Mode LLM Inference on a Single GPU

Autres angles sur ce sujet