arXiv cs.CL·20 mai 2026

Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning

Signal

Hype

En 3 lignesConditional Entropy Shaping (CES) contrôle dynamiquement l'entropie des tokens pour équilibrer concision et précision du raisonnement. Implémenté sur DeepSeek-R1-Distill-7B, CES pénalise les tokens haute-entropie sur les chemins corrects et les récompense sur les chemins erronés. Résultats : amélioration de la précision avec réduction de la longueur des réponses sur 12 benchmarks mathématiques.

Lire la source

Ton avis ?

DeepSeek Raisonnement Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning

Autres angles sur ce sujet