Inference-Time Diversity in RL-Trained Lean Theorem Provers: A Diagnostic Study
Signal
78
Hype
15
En 3 lignesLes prouveurs de théorèmes Lean entraînés par RL souffrent d'effondrement modal à l'inférence : doubler l'échantillonnage de k=32 à k=64 sur miniF2F-test avec DeepSeek-Prover-V1.5-RL ne résout zéro théorème supplémentaire (42/244). Une diversité structurelle fixe de 15 squelettes tactiques récupère +45% d'amélioration relative à k=16 (+12.3±4.2 théorèmes). Le phénomène est spécifique à RL et orthogonal au scaling.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain