arXiv cs.AI·29 mai 2026

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Signal

Hype

En 3 lignesÉtude sur les traces long-CoT utilisées pour l'entraînement supervisé des LLM. Les chercheurs identifient une « continuation nuisible » : quand le raisonnement continue après que la réponse soit suffisamment justifiée. Supprimer ces continuations améliore les résultats du fine-tuning. Ils proposent HCC (Harmful Continuation Cut), un proxy léger pour détecter ces limites.

Lire la source

Ton avis ?

Raisonnement Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Autres angles sur ce sujet