Retour au feed
arXiv cs.AI·

LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks

Signal
85
Hype
25
En 3 lignesLEAP est un framework agentic qui permet aux LLMs de générer des preuves formelles vérifiables en Lean. Le système décompose les problèmes complexes en unités plus petites via interaction itérative avec le compilateur Lean. Sur les 12 problèmes du Putnam 2025, LEAP en résout tous les 12 ; sur Lean-IMO-Bench, il atteint 70% de taux de résolution contre <10% pour les LLMs génériques.

## LEAP : quand un framework agentique dépasse les systèmes spécialisés en preuve formelle

### Ce qui se passe concrètement

LEAP (arXiv:2606.03303) est un framework agentique positionné au-dessus de LLMs généralistes — pas un modèle fine-tuné, pas un système entraîné sur des corpus Lean spécifiques — qui produit des preuves formelles vérifiables mécaniquement par le compilateur Lean. Le résultat empirique central : **70% de taux de résolution sur Lean-IMO-Bench**, contre moins de 10% pour les mêmes LLMs en mode one-shot, et surtout contre **48% pour un système spécialisé de niveau médaille d'or IMO**. Sur le Putnam 2025, LEAP résout les 12 problèmes sur 12.

### L'architecture qui produit ces chiffres

LEAP repose sur trois mécanismes combinés. D'abord, la **décomposition hiérarchique** : les problèmes complexes sont fragmentés en sous-objectifs tactiques, chaque fragment étant attaquable indépendamment. Ensuite, le **bridging informel-formel** : le système génère d'abord un blueprint en langage naturel (raisonnement informel), puis traduit ce blueprint en syntaxe Lean, exploitant la compétence de raisonnement mathématique informel déjà présente dans les LLMs généralistes. Enfin, la **boucle de raffinement itératif** avec le compilateur Lean comme oracle : chaque tentative de preuve est soumise au compilateur, les erreurs de typage ou d'incohérence logique remontent comme signal, et le LLM corrige en conséquence. Ce n'est pas du prompting naïf — c'est une architecture agentique où le compilateur joue le rôle de vérificateur formel en temps réel.

### Pourquoi le benchmark Lean-IMO-Bench change l'évaluation

Les benchmarks existants (MiniF2F, ProofNet) sont en voie de saturation : les meilleurs systèmes y atteignent des scores qui rendent la discrimination difficile. Lean-IMO-Bench introduit des problèmes de style IMO formalisés en Lean, caractérisés par des **énoncés courts mais des preuves multi-étapes hautement non-routinières**. C'est précisément là que les approches one-shot s'effondrent : la brièveté de l'énoncé masque une complexité structurelle qui nécessite des chaînes de raisonnement longues et ramifiées. Le fait que LEAP atteigne 70% sur ce benchmark — conçu pour résister à la saturation — est le chiffre le plus informatif de l'article.

### Le cas Knuth : signal de maturité recherche

Au-delà des benchmarks compétitifs, les auteurs démontrent une application à un problème ouvert réel : la **décomposition hamiltonienne des graphes de Cayley d'ordre pair**, un problème lié aux travaux de Knuth. LEAP a produit une preuve formelle vérifiée pour un sous-problème clé de ce challenge combinatoire. Ce n'est pas anecdotique — c'est la démonstration que le système peut opérer en dehors du régime d'entraînement, sur des structures mathématiques qui ne figurent pas dans les corpus standards. La vérification par Lean garantit l'absence d'erreur silencieuse, problème chronique des preuves LLM non formalisées.

### Les perdants potentiels

Premier perdant : **les systèmes spécialisés fine-tunés sur Lean**. Si un framework agentique généraliste dépasse à 70% un système entraîné spécifiquement pour l'IMO (48%), la justification du coût de spécialisation s'érode. Les équipes qui ont investi dans des pipelines de fine-tuning Lean-spécifique doivent reconsidérer leur roadmap.

Deuxième perdant : **les approches de vérification informelle**. Les LLMs qui produisent des preuves en langage naturel sans vérification formelle sont exposés à des erreurs non détectées. LEAP établit un standard de vérifiabilité mécanique qui rend ces approches moins défendables dans des contextes à enjeux élevés (mathématiques de recherche, vérification de logiciels critiques).

Troisième perdant potentiel : **les benchmarks actuels**. MiniF2F et consorts perdent leur pouvoir discriminant. Lean-IMO-Bench devient la référence de facto pour évaluer les systèmes sérieux.

### Ce qui reste ouvert

L'article ne détaille pas les coûts computationnels de la boucle agentique — combien d'appels compilateur par problème, quelle latence totale sur les problèmes IMO difficiles. La généralisation à d'autres assistants de preuve (Coq, Isabelle, Agda) n'est pas adressée. Et la question de la **scalabilité aux preuves de longueur recherche** (théorèmes majeurs, pas sous-problèmes) reste entière. LEAP résout des problèmes de compétition ; la distance entre un problème Putnam et une preuve de théorème de niveau Fields Medal reste considérable.

Lire la source
Ton avis ?
Agents IARaisonnementBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain