Distilling LLM Feedback for Lean Theorem Proving
Signal
75
Hype
15
En 3 lignesNouvelle méthode de post-training pour modèles de raisonnement : Feedback Distillation entraîne le modèle à reproduire sa propre distribution conditionnée par des retours de LLM. Testée sur Lean4 (théorèmes), elle maintient plus de diversité que GRPO, améliore l'entropie et le scaling pass@k. Combinée à GRPO, elle surpasse les deux méthodes seules.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain