arXiv cs.AI·19 mai 2026

Inference-Time Diversity in RL-Trained Lean Theorem Provers: A Diagnostic Study

Signal

Hype

En 3 lignesLes prouveurs de théorèmes Lean entraînés par RL souffrent d'effondrement modal à l'inférence : doubler l'échantillonnage de k=32 à k=64 sur miniF2F-test avec DeepSeek-Prover-V1.5-RL ne résout zéro théorème supplémentaire (42/244). Une diversité structurelle fixe de 15 squelettes tactiques récupère +45% d'amélioration relative à k=16 (+12.3±4.2 théorèmes). Le phénomène est spécifique à RL et orthogonal au scaling.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Inference-Time Diversity in RL-Trained Lean Theorem Provers: A Diagnostic Study

Autres angles sur ce sujet