Backtracking When It Strays: Mitigating Dual Exposure Biases in LLM Reasoning Distillation
Signal
72
Hype
25
En 3 lignesMOTAB, une nouvelle méthode de distillation du raisonnement LLM, résout le problème des biais d'exposition dual en surveillant dynamiquement la génération de l'étudiant et en revenant en arrière quand elle s'écarte d'une limite de sécurité adaptative. Testé sur LIMO-v2 et AceReason, MOTAB améliore les performances de ~3% en atténuant les biais d'exposition classiques et inverses.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain