Retour au feed
arXiv cs.CL·

Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning

Signal
78
Hype
22
En 3 lignesLEDE, un framework d'apprentissage par renforcement hors ligne, optimise l'inférence des LLM en sélectionnant dynamiquement la couche de sortie et la longueur de spéculation selon le contexte local. Sur Llama-2 et Llama-3, il atteint 2.0×–2.7× d'accélération vs décodage autorégressif, +17% vs baselines statiques.
Lire la source
Ton avis ?
LlamaReinforcement learningGénération de codeBenchmarks

Résumé généré par Claude — vérifié par l'humain