arXiv cs.CL·19 mai 2026

Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

Signal

Hype

En 3 lignesPUMA détecte la redondance sémantique dans les chaînes de pensée pour arrêter l'inférence des modèles de raisonnement avant qu'ils ne gaspillent des tokens. Le framework combine un détecteur de redondance léger avec une vérification au niveau de la réponse, réduisant les tokens de 26,2% en moyenne sur 5 benchmarks tout en préservant la précision et la cohérence du raisonnement.

Lire la source

Ton avis ?

Raisonnement Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

Autres angles sur ce sujet