Agentic Proving for Program Verification
Signal
78
Hype
25
En 3 lignesClaude Code évalué sur CLEVER (benchmark Lean 4) génère des spécifications valides pour 98,8% des problèmes, certifie 87,5% des implémentations et atteint 98,1% de succès en pipeline end-to-end. L'étude révèle un décalage entre la difficulté des benchmarks actuels et les capacités des prouveurs agentic modernes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain