Retour au feed
arXiv cs.AI·

Distilling LLM Feedback for Lean Theorem Proving

Signal
75
Hype
15
En 3 lignesNouvelle méthode de post-training pour modèles de raisonnement : Feedback Distillation entraîne le modèle à reproduire sa propre distribution conditionnée par des retours de LLM. Testée sur Lean4 (théorèmes), elle maintient plus de diversité que GRPO, améliore l'entropie et le scaling pass@k. Combinée à GRPO, elle surpasse les deux méthodes seules.
Lire la source
Ton avis ?
RaisonnementReinforcement learningFine-tuningPapers

Résumé généré par Claude — vérifié par l'humain