Retour au feed
arXiv cs.CL·

Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning

Signal
72
Hype
28
En 3 lignesConditional Entropy Shaping (CES) contrôle dynamiquement l'entropie des tokens pour équilibrer concision et précision du raisonnement. Implémenté sur DeepSeek-R1-Distill-7B, CES pénalise les tokens haute-entropie sur les chemins corrects et les récompense sur les chemins erronés. Résultats : amélioration de la précision avec réduction de la longueur des réponses sur 12 benchmarks mathématiques.
Lire la source
Ton avis ?
DeepSeekRaisonnementReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain