Le fait marquant de la semaine est double et convergent : l'IA de raisonnement d'OpenAI a réfuté la conjecture d'Erdős sur la géométrie des distances unitaires, ouverte depuis 1946, en mobilisant des outils de théorie algébrique des nombres que les mathématiciens n'avaient pas envisagés pour ce problème — Tim Gowers (médaille Fields) parle explicitement de « jalon ». Dans le même registre formel, OProver-32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench en Lean 4, via un cycle préentraînement continu / post-entraînement itératif avec feedback compilateur. Ces deux résultats ne sont pas anecdotiques : ils signalent que les modèles de raisonnement commencent à produire des contributions mathématiques non triviales et vérifiables formellement, ce qui change la nature de la preuve de concept. La vérification formelle de 305 théorèmes Lean 4 dans le papier sur DASH (arXiv:2605.16282) s'inscrit dans la même dynamique : le raisonnement formel assisté par IA passe du benchmark au résultat scientifique réel.
Le deuxième thème dominant est infrastructurel et financier, avec des implications stratégiques qui dépassent l'anecdote comptable. L'accord révélé dans le S-1 de SpaceX place Anthropic à 1,25 milliard de dollars par mois de capacité de calcul sur COLOSSUS et COLOSSUS II jusqu'en mai 2029 — soit potentiellement 45 milliards de dollars sur la durée du contrat. SpaceX utilise simultanément ces mêmes clusters pour entraîner Grok 5, ce qui crée une situation de co-dépendance et de concurrence directe entre fournisseur et client rarement vue à cette échelle. Ce chiffre met en perspective les discussions habituelles sur les coûts d'inférence : la bataille se joue désormais au niveau de l'accès aux clusters d'entraînement souverains, et les acteurs sans accès propriétaire à ce type d'infrastructure sont structurellement désavantagés pour les prochains cycles d'entraînement.
Le troisième thème, plus discret mais potentiellement le plus durable pour les praticiens, est l'effondrement méthodologique des évaluations de sécurité. L'analyse systématique de 40 benchmarks agents (arXiv:2605.16282, 2023-2026) révèle un Kendall's W de 0,10 (p = 0,94) : les benchmarks existants ne s'accordent sur rien, leurs modèles de menace sont incompatibles et leurs métriques fragmentées. ASPI enfonce le clou différemment : en mode clarification, le taux de succès d'injection de prompt monte de 1,8% à 34,0% pour o3 et de 2,2% à 35,7% pour Gemini-3-Flash — une surface d'attaque créée par un comportement pourtant considéré comme une bonne pratique d'UX. ContractBench complète ce tableau : sur 38 modèles, aucun ne dépasse 80% de préservation des contrats d'observation, Claude-Opus-4.6 plafonnant à 77,8%, avec une régression non-monotone dans la famille GPT-5. La leçon transversale est que la sécurité des agents en production ne peut pas s'appuyer sur les benchmarks actuels pour établir des garanties, et que certaines améliorations comportementales (clarification, chaîne de pensée) introduisent des vulnérabilités non anticipées.
La semaine à venir verra probablement les premières réactions institutionnelles à l'accord SpaceX-Anthropic, notamment des questions sur la gouvernance d'un fournisseur de calcul qui entraîne simultanément un modèle concurrent sur la même infrastructure.
SpaceX a signé un accord avec Anthropic pour fournir de la capacité de calcul sur COLOSSUS et COLOSSUS II. Anthropic paiera 1,25 milliard de dollars par mois jusqu'à mai 2029, avec montée en charge réduite en mai-juin 2026. SpaceX utilise aussi ces ressources pour entraîner Grok 5.
Analyse systématique de 40 benchmarks de sécurité pour agents IA (2023-2026). Les benchmarks présentent des modèles de menace incompatibles, des métriques fragmentées et une couverture de risques incohérente. Test de concordance (Kendall's W = 0.10, p = 0.94) révèle l'absence d'alignement entre évaluations. Publication de métadonnées structurées et standards minimaux de reporting.
Théorème d'impossibilité : aucun classement de features ne peut être simultanément fidèle, stable et complet sous colinéarité. Les auteurs quantifient ce résultat pour 4 classes de modèles, proposent DASH (agrégation d'ensembles SHAP) comme solution, et vérifient formellement 305 théorèmes Lean 4. Conséquence : 68% des datasets publics montrent une instabilité d'attribution.
Un modèle OpenAI a réfuté une conjecture majeure en géométrie discrète en résolvant le problème de la distance unitaire, vieux de 80 ans. Cette avancée marque un jalon dans les mathématiques assistées par IA.
OpenAI Whisper est un modèle de reconnaissance vocale entraîné sur 680 000 heures de données multilingues faiblement supervisées. Le repo GitHub contient le code, les modèles pré-entraînés et les benchmarks de performance sur plusieurs langues et conditions acoustiques.
Un modèle de raisonnement d'OpenAI a réfuté une conjecture d'Erdős en géométrie des distances unitaires (ouverte depuis 1946) en utilisant des outils de théorie algébrique des nombres inattendus. Tim Gowers (médaillé Fields) qualifie cela de « jalon en mathématiques IA ».
Meta publie le code et les checkpoints de SAM 3 (Segment Anything Model 3). Le repo inclut l'inférence, le fine-tuning et des notebooks d'exemple pour la segmentation d'images.
ASPI est un benchmark de 728 scénarios tâche-attaque mesurant comment la clarification augmente la vulnérabilité aux injections de prompt. Les tests sur 10 LLMs frontière montrent que le taux de succès d'attaque monte de 1,8% à 34,0% pour o3 et de 2,2% à 35,7% pour Gemini-3-Flash en mode clarification. Code et données disponibles.
OProver est un framework unifié pour la preuve formelle de théorèmes en Lean 4 utilisant des agents. Le système révise itérativement les tentatives échouées via des preuves récupérées et du feedback du compilateur. Entraîné par préentraînement continu et post-entraînement itératif, OProver-32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench.
FML-Bench est un benchmark de 18 tâches ML sur 10 domaines évaluant 6 agents de recherche IA. Résultats clés : la complexité stratégique seule ne garantit pas la performance (greedy hill-climber rivalise avec tree-search) ; l'efficacité dépend de la structure d'opportunités d'amélioration ; un agent adaptatif détectant la stagnation surpasse les autres. 12 métriques comportementales au niveau processus.
ContractBench évalue la capacité des agents LLM à préserver les contrats d'observation (artefacts temporellement valides et intègres au niveau des octets) lors d'appels API. Sur 38 modèles testés, aucun ne dépasse 80% : Claude-Opus-4.6 atteint 77,8%. Les résultats révèlent des défaillances d'intégrité et de validité non corrélées à la taille du modèle, et une régression non-monotone dans la famille GPT-5.
Injection de brouillons mathématiquement incorrects d'un petit modèle (Qwen2.5-Math-1.5B) dans l'entraînement GRPO d'un modèle plus fort (Mathstral-7B) améliore les performances sur MATH-500 (+1.62pp) et AIME 2025/2026 (+14.2pp à pass@1024). Le décalage intentionnel entre problèmes et brouillons est crucial : 71.98% sur MATH-500, meilleur résultat publié pour ce modèle.