Semaine du2026-05-18

Semaine du 18 mai 2026 : raisonnement formel, infrastructure à 1,25 Md$/mois et l'illusion des benchmarks de sécurité

Le fait marquant de la semaine est double et convergent : l'IA de raisonnement d'OpenAI a réfuté la conjecture d'Erdős sur la géométrie des distances unitaires, ouverte depuis 1946, en mobilisant des outils de théorie algébrique des nombres que les mathématiciens n'avaient pas envisagés pour ce problème — Tim Gowers (médaille Fields) parle explicitement de « jalon ». Dans le même registre formel, OProver-32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench en Lean 4, via un cycle préentraînement continu / post-entraînement itératif avec feedback compilateur. Ces deux résultats ne sont pas anecdotiques : ils signalent que les modèles de raisonnement commencent à produire des contributions mathématiques non triviales et vérifiables formellement, ce qui change la nature de la preuve de concept. La vérification formelle de 305 théorèmes Lean 4 dans le papier sur DASH (arXiv:2605.16282) s'inscrit dans la même dynamique : le raisonnement formel assisté par IA passe du benchmark au résultat scientifique réel.

Le deuxième thème dominant est infrastructurel et financier, avec des implications stratégiques qui dépassent l'anecdote comptable. L'accord révélé dans le S-1 de SpaceX place Anthropic à 1,25 milliard de dollars par mois de capacité de calcul sur COLOSSUS et COLOSSUS II jusqu'en mai 2029 — soit potentiellement 45 milliards de dollars sur la durée du contrat. SpaceX utilise simultanément ces mêmes clusters pour entraîner Grok 5, ce qui crée une situation de co-dépendance et de concurrence directe entre fournisseur et client rarement vue à cette échelle. Ce chiffre met en perspective les discussions habituelles sur les coûts d'inférence : la bataille se joue désormais au niveau de l'accès aux clusters d'entraînement souverains, et les acteurs sans accès propriétaire à ce type d'infrastructure sont structurellement désavantagés pour les prochains cycles d'entraînement.

Le troisième thème, plus discret mais potentiellement le plus durable pour les praticiens, est l'effondrement méthodologique des évaluations de sécurité. L'analyse systématique de 40 benchmarks agents (arXiv:2605.16282, 2023-2026) révèle un Kendall's W de 0,10 (p = 0,94) : les benchmarks existants ne s'accordent sur rien, leurs modèles de menace sont incompatibles et leurs métriques fragmentées. ASPI enfonce le clou différemment : en mode clarification, le taux de succès d'injection de prompt monte de 1,8% à 34,0% pour o3 et de 2,2% à 35,7% pour Gemini-3-Flash — une surface d'attaque créée par un comportement pourtant considéré comme une bonne pratique d'UX. ContractBench complète ce tableau : sur 38 modèles, aucun ne dépasse 80% de préservation des contrats d'observation, Claude-Opus-4.6 plafonnant à 77,8%, avec une régression non-monotone dans la famille GPT-5. La leçon transversale est que la sécurité des agents en production ne peut pas s'appuyer sur les benchmarks actuels pour établir des garanties, et que certaines améliorations comportementales (clarification, chaîne de pensée) introduisent des vulnérabilités non anticipées.

La semaine à venir verra probablement les premières réactions institutionnelles à l'accord SpaceX-Anthropic, notamment des questions sur la gouvernance d'un fournisseur de calcul qui entraîne simultanément un modèle concurrent sur la même infrastructure.

Les 5 picks du jour
01
02
03
04
05
06
07
08
09
10
11
12
Semaine du 18 mai 2026 : raisonnement formel, infrastructure à 1,25 Md$/mois et l'illusion des benchmarks de sécurité · Signal IA