Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning
Signal
78
Hype
22
En 3 lignesLEDE, un framework d'apprentissage par renforcement hors ligne, optimise l'inférence des LLM en sélectionnant dynamiquement la couche de sortie et la longueur de spéculation selon le contexte local. Sur Llama-2 et Llama-3, il atteint 2.0×–2.7× d'accélération vs décodage autorégressif, +17% vs baselines statiques.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain