Semaine du2026-05-18

Semaine du 18 mai 2026 : raisonnement formel, infrastructure à 1,25 Md$/mois et l'illusion des benchmarks de sécurité

Par l'équipe éditoriale

Le fait marquant de la semaine est double et convergent : l'IA de raisonnement d'OpenAI a réfuté la conjecture d'Erdős sur la géométrie des distances unitaires, ouverte depuis 1946, en mobilisant des outils de théorie algébrique des nombres que les mathématiciens n'avaient pas envisagés pour ce problème — Tim Gowers (médaille Fields) parle explicitement de « jalon ». Dans le même registre formel, OProver-32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench en Lean 4, via un cycle préentraînement continu / post-entraînement itératif avec feedback compilateur. Ces deux résultats ne sont pas anecdotiques : ils signalent que les modèles de raisonnement commencent à produire des contributions mathématiques non triviales et vérifiables formellement, ce qui change la nature de la preuve de concept. La vérification formelle de 305 théorèmes Lean 4 dans le papier sur DASH (arXiv:2605.16282) s'inscrit dans la même dynamique : le raisonnement formel assisté par IA passe du benchmark au résultat scientifique réel.

Le deuxième thème dominant est infrastructurel et financier, avec des implications stratégiques qui dépassent l'anecdote comptable. L'accord révélé dans le S-1 de SpaceX place Anthropic à 1,25 milliard de dollars par mois de capacité de calcul sur COLOSSUS et COLOSSUS II jusqu'en mai 2029 — soit potentiellement 45 milliards de dollars sur la durée du contrat. SpaceX utilise simultanément ces mêmes clusters pour entraîner Grok 5, ce qui crée une situation de co-dépendance et de concurrence directe entre fournisseur et client rarement vue à cette échelle. Ce chiffre met en perspective les discussions habituelles sur les coûts d'inférence : la bataille se joue désormais au niveau de l'accès aux clusters d'entraînement souverains, et les acteurs sans accès propriétaire à ce type d'infrastructure sont structurellement désavantagés pour les prochains cycles d'entraînement.

Le troisième thème, plus discret mais potentiellement le plus durable pour les praticiens, est l'effondrement méthodologique des évaluations de sécurité. L'analyse systématique de 40 benchmarks agents (arXiv:2605.16282, 2023-2026) révèle un Kendall's W de 0,10 (p = 0,94) : les benchmarks existants ne s'accordent sur rien, leurs modèles de menace sont incompatibles et leurs métriques fragmentées. ASPI enfonce le clou différemment : en mode clarification, le taux de succès d'injection de prompt monte de 1,8% à 34,0% pour o3 et de 2,2% à 35,7% pour Gemini-3-Flash — une surface d'attaque créée par un comportement pourtant considéré comme une bonne pratique d'UX. ContractBench complète ce tableau : sur 38 modèles, aucun ne dépasse 80% de préservation des contrats d'observation, Claude-Opus-4.6 plafonnant à 77,8%, avec une régression non-monotone dans la famille GPT-5. La leçon transversale est que la sécurité des agents en production ne peut pas s'appuyer sur les benchmarks actuels pour établir des garanties, et que certaines améliorations comportementales (clarification, chaîne de pensée) introduisent des vulnérabilités non anticipées.

La semaine à venir verra probablement les premières réactions institutionnelles à l'accord SpaceX-Anthropic, notamment des questions sur la gouvernance d'un fournisseur de calcul qui entraîne simultanément un modèle concurrent sur la même infrastructure.

Les 5 picks du jour

Simon Willison·SIG 85

Quoting SpaceX S-1

SpaceX a signé un accord avec Anthropic pour fournir de la capacité de calcul sur COLOSSUS et COLOSSUS II. Anthropic paiera 1,25 milliard de dollars par mois jusqu'à mai 2029, avec montée en charge réduite en mai-juin 2026. SpaceX utilise aussi ces ressources pour entraîner Grok 5.

Anthropic Infrastructure Business

arXiv cs.AI·SIG 85

Taxonomy and Consistency Analysis of Safety Benchmarks for AI Agents

Analyse systématique de 40 benchmarks de sécurité pour agents IA (2023-2026). Les benchmarks présentent des modèles de menace incompatibles, des métriques fragmentées et une couverture de risques incohérente. Test de concordance (Kendall's W = 0.10, p = 0.94) révèle l'absence d'alignement entre évaluations. Publication de métadonnées structurées et standards minimaux de reporting.

Agents IA Sécurité IA Évaluations

arXiv cs.LG·SIG 85

The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity

Théorème d'impossibilité : aucun classement de features ne peut être simultanément fidèle, stable et complet sous colinéarité. Les auteurs quantifient ce résultat pour 4 classes de modèles, proposent DASH (agrégation d'ensembles SHAP) comme solution, et vérifient formellement 305 théorèmes Lean 4. Conséquence : 68% des datasets publics montrent une instabilité d'attribution.

Évaluations Papers Sécurité IA

OpenAI Blog·SIG 85

An OpenAI model has disproved a central conjecture in discrete geometry

Un modèle OpenAI a réfuté une conjecture majeure en géométrie discrète en résolvant le problème de la distance unitaire, vieux de 80 ans. Cette avancée marque un jalon dans les mathématiques assistées par IA.

OpenAI Raisonnement Benchmarks

GitHub Trending·SIG 85

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> openai /</span> whisper

OpenAI Whisper est un modèle de reconnaissance vocale entraîné sur 680 000 heures de données multilingues faiblement supervisées. Le repo GitHub contient le code, les modèles pré-entraînés et les benchmarks de performance sur plusieurs langues et conditions acoustiques.

OpenAI Voix Open source

The Decoder·SIG 85

OpenAI shifts the boundary of automated reasoning with a "milestone in AI mathematics" that experts are now unpacking

Un modèle de raisonnement d'OpenAI a réfuté une conjecture d'Erdős en géométrie des distances unitaires (ouverte depuis 1946) en utilisant des outils de théorie algébrique des nombres inattendus. Tim Gowers (médaillé Fields) qualifie cela de « jalon en mathématiques IA ».

OpenAI Raisonnement Benchmarks

GitHub Trending·SIG 85

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> facebookresearch /</span> sam3

Meta publie le code et les checkpoints de SAM 3 (Segment Anything Model 3). Le repo inclut l'inférence, le fine-tuning et des notebooks d'exemple pour la segmentation d'images.

Meta AI Vision Open source

arXiv cs.AI·SIG 82

ASPI: Seeking Ambiguity Clarification Amplifies Prompt Injection Vulnerability in LLM Agents

ASPI est un benchmark de 728 scénarios tâche-attaque mesurant comment la clarification augmente la vulnérabilité aux injections de prompt. Les tests sur 10 LLMs frontière montrent que le taux de succès d'attaque monte de 1,8% à 34,0% pour o3 et de 2,2% à 35,7% pour Gemini-3-Flash en mode clarification. Code et données disponibles.

Agents IA Sécurité IA Benchmarks

arXiv cs.AI·SIG 82

OProver: A Unified Framework for Agentic Formal Theorem Proving

OProver est un framework unifié pour la preuve formelle de théorèmes en Lean 4 utilisant des agents. Le système révise itérativement les tentatives échouées via des preuves récupérées et du feedback du compilateur. Entraîné par préentraînement continu et post-entraînement itératif, OProver-32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench.

Agents IA Raisonnement Reinforcement learning

arXiv cs.AI·SIG 82

FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics

FML-Bench est un benchmark de 18 tâches ML sur 10 domaines évaluant 6 agents de recherche IA. Résultats clés : la complexité stratégique seule ne garantit pas la performance (greedy hill-climber rivalise avec tree-search) ; l'efficacité dépend de la structure d'opportunités d'amélioration ; un agent adaptatif détectant la stagnation surpasse les autres. 12 métriques comportementales au niveau processus.

Agents IA Benchmarks Raisonnement

arXiv cs.AI·SIG 82

ContractBench: Can LLM Agents Preserve Observation Contracts?

ContractBench évalue la capacité des agents LLM à préserver les contrats d'observation (artefacts temporellement valides et intègres au niveau des octets) lors d'appels API. Sur 38 modèles testés, aucun ne dépasse 80% : Claude-Opus-4.6 atteint 77,8%. Les résultats révèlent des défaillances d'intégrité et de validité non corrélées à la taille du modèle, et une régression non-monotone dans la famille GPT-5.

Agents IA Benchmarks Claude

arXiv cs.AI·SIG 82

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injection de brouillons mathématiquement incorrects d'un petit modèle (Qwen2.5-Math-1.5B) dans l'entraînement GRPO d'un modèle plus fort (Mathstral-7B) améliore les performances sur MATH-500 (+1.62pp) et AIME 2025/2026 (+14.2pp à pass@1024). Le décalage intentionnel entre problèmes et brouillons est crucial : 71.98% sur MATH-500, meilleur résultat publié pour ce modèle.

Reinforcement learning Raisonnement Benchmarks