Retour au feed
arXiv cs.AI·

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Signal
72
Hype
15
En 3 lignesÉtude sur les traces long-CoT utilisées pour l'entraînement supervisé des LLM. Les chercheurs identifient une « continuation nuisible » : quand le raisonnement continue après que la réponse soit suffisamment justifiée. Supprimer ces continuations améliore les résultats du fine-tuning. Ils proposent HCC (Harmful Continuation Cut), un proxy léger pour détecter ces limites.
Lire la source
Ton avis ?
RaisonnementFine-tuningPapers

Résumé généré par Claude — vérifié par l'humain