Retour au feed
Hugging Face Blog·

Kimina-Prover: Applying Test-time RL Search on Large Formal Reasoning Models

Signal
75
Hype
25
En 3 lignesKimina-Prover applique la recherche par renforcement au moment de l'inférence sur des modèles de raisonnement formel. La méthode améliore les performances sur les preuves mathématiques en explorant dynamiquement l'espace de recherche sans réentraînement.
Lire la source
Ton avis ?
RaisonnementReinforcement learningBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain