arXiv cs.LG·2 juin 2026

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

Signal

Hype

En 3 lignesLa quantification post-entraînement (PTQ) réduit la précision des modèles de raisonnement et augmente la longueur des chaînes de pensée. 52% des erreurs proviennent de réponses correctes trouvées mais non finalisées. Une pénalité logit sans entraînement sur les marqueurs de surréflexion ("wait", "but") réduit la longueur de 12-23% tout en préservant la précision sur 5 modèles (1.5B-32B).

Lire la source

Ton avis ?

Raisonnement Fine-tuning Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

Autres angles sur ce sujet