Quantized Reasoning Models Think They Need to Think Longer, but They Do Not
Signal
78
Hype
15
En 3 lignesLa quantification post-entraînement (PTQ) réduit la précision des modèles de raisonnement et augmente la longueur des chaînes de pensée. 52% des erreurs proviennent de réponses correctes trouvées mais non finalisées. Une pénalité logit sans entraînement sur les marqueurs de surréflexion ("wait", "but") réduit la longueur de 12-23% tout en préservant la précision sur 5 modèles (1.5B-32B).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain