arXiv cs.AI·25 mai 2026

Agentic Proving for Program Verification

Signal

Hype

En 3 lignesClaude Code évalué sur CLEVER (benchmark Lean 4) génère des spécifications valides pour 98,8% des problèmes, certifie 87,5% des implémentations et atteint 98,1% de succès en pipeline end-to-end. L'étude révèle un décalage entre la difficulté des benchmarks actuels et les capacités des prouveurs agentic modernes.

Lire la source

Ton avis ?

Claude Code Agents IA Raisonnement Benchmarks Génération de code

Résumé généré par Claude — vérifié par l'humain

Agentic Proving for Program Verification

Autres angles sur ce sujet