arXiv cs.AI·1 juin 2026

Distilling LLM Feedback for Lean Theorem Proving

Signal

Hype

En 3 lignesNouvelle méthode de post-training pour modèles de raisonnement : Feedback Distillation entraîne le modèle à reproduire sa propre distribution conditionnée par des retours de LLM. Testée sur Lean4 (théorèmes), elle maintient plus de diversité que GRPO, améliore l'entropie et le scaling pass@k. Combinée à GRPO, elle surpasse les deux méthodes seules.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Distilling LLM Feedback for Lean Theorem Proving

Autres angles sur ce sujet