arXiv cs.CL·3 juin 2026

Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning

Signal

Hype

En 3 lignesLEDE, un framework d'apprentissage par renforcement hors ligne, optimise l'inférence des LLM en sélectionnant dynamiquement la couche de sortie et la longueur de spéculation selon le contexte local. Sur Llama-2 et Llama-3, il atteint 2.0×–2.7× d'accélération vs décodage autorégressif, +17% vs baselines statiques.

Lire la source

Ton avis ?

Llama Reinforcement learning Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning

Autres angles sur ce sujet