arXiv cs.CL·20 mai 2026

Backtracking When It Strays: Mitigating Dual Exposure Biases in LLM Reasoning Distillation

Signal

Hype

En 3 lignesMOTAB, une nouvelle méthode de distillation du raisonnement LLM, résout le problème des biais d'exposition dual en surveillant dynamiquement la génération de l'étudiant et en revenant en arrière quand elle s'écarte d'une limite de sécurité adaptative. Testé sur LIMO-v2 et AceReason, MOTAB améliore les performances de ~3% en atténuant les biais d'exposition classiques et inverses.

Lire la source

Ton avis ?

Raisonnement Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Backtracking When It Strays: Mitigating Dual Exposure Biases in LLM Reasoning Distillation

Autres angles sur ce sujet