Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces
Signal
72
Hype
15
En 3 lignesÉtude sur les traces long-CoT utilisées pour l'entraînement supervisé des LLM. Les chercheurs identifient une « continuation nuisible » : quand le raisonnement continue après que la réponse soit suffisamment justifiée. Supprimer ces continuations améliore les résultats du fine-tuning. Ils proposent HCC (Harmful Continuation Cut), un proxy léger pour détecter ces limites.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain