Le fait dominant de la semaine est la levée de fonds d'Anthropic — 65 milliards de dollars en Series H, valorisation à 965 milliards, ARR annualisé à 47 milliards selon le CFO Krishna Rao — qui propulse l'entreprise à la lisière du trillion-dollar club aux côtés de Microsoft et Apple. Ce n'est pas seulement un événement financier : Anthropic accompagne cette annonce du lancement de Claude Opus 4.8 avec Dynamic Workflows et ultracode, et Simon Willison intègre immédiatement le modèle dans llm-anthropic 0.25.1 avec un mode rapide activable via -o fast 1. La vitesse de l'écosystème outillage autour des sorties Anthropic est désormais quasi-instantanée, ce qui signifie que les praticiens n'ont plus à attendre les wrappers officiels pour tester les nouvelles capacités en production. La question qui reste ouverte : à quel ARR Anthropic atteint-il la rentabilité structurelle, sachant que les coûts de compute et de recherche en sécurité absorbent une fraction inconnue de ces 47 milliards ?
Le deuxième thème majeur est la collision entre ambition agentic et réalité empirique. ITBench-AA, co-développé par Artificial Analysis et IBM, est le premier benchmark centré sur des tâches IT d'entreprise en mode agentic — ticketing, remédiation d'incidents, orchestration de workflows — et les résultats sont sans appel : Claude, GPT-4 et Gemini passent tous sous la barre des 50%. Ce chiffre doit être lu en parallèle avec IDS (Inductive Deductive Synthesis), qui sur 7 spécifications de key-value stores distribués atteint 7/7 là où GPT-5.4 et Claude Opus 4.6 n'en résolvent que 2/7, en 6,8 heures pour 106 dollars. La leçon n'est pas contradictoire : les systèmes multi-agents avec scaffolding formel (Lean 4, vérification symbolique) surpassent les modèles frontier en solo sur des tâches structurées, mais les environnements IT réels — hétérogènes, mal spécifiés, sans oracle de vérification — restent hors de portée. Le gap entre benchmark de laboratoire et déploiement opérationnel n'a jamais été aussi documenté.
En marge des deux thèmes centraux, la semaine a produit une densité inhabituelle de travaux architecturaux et interprétatifs. FuRA (arXiv:2605.22869) propose une alternative à LoRA via décomposition SVD complète avec préconditionnement spectral, gagnant +1,37 point de raisonnement sur LLaMA-3-8B sans surcoût paramétrique significatif — un résultat qui mérite réplication avant adoption. Delta Attention Residuals (arXiv:2605.18855) réduit la perplexité de 8,2% sur 7,6B paramètres en routant sur les deltas inter-couches plutôt que les états cachés cumulatifs, avec moins de 0,01% d'overhead. Côté interprétabilité, deux papiers convergents montrent que les sparse autoencoders décomposant GPT-2 XL et Llama-3.1-8B en 16K-32K features récupèrent 94% de la performance d'encodage cérébral peak (r=0,285) et s'alignent avec la topographie corticale sémantique (ρ=0,72, p<0,001) — un résultat qui renforce la thèse que les représentations sémantiques des LLMs ne sont pas arbitraires mais convergent vers des structures cognitives universelles, indépendamment de la langue d'entraînement selon Brain-LLM Alignment (arXiv:2605.23032v1).
La semaine à venir verra probablement les premiers benchmarks indépendants sur Claude Opus 4.8 et Dynamic Workflows, qui permettront de calibrer si la levée à 965 milliards se traduit par un saut qualitatif mesurable ou si le gap sur ITBench-AA persiste malgré la nouvelle architecture.
ITBench-AA, nouveau benchmark créé par Artificial Analysis et IBM, évalue les capacités des modèles frontier sur des tâches IT d'entreprise agentic. Les meilleurs modèles (Claude, GPT-4, Gemini) obtiennent moins de 50% de réussite, révélant des lacunes significatives dans l'automatisation des workflows IT complexes.
Anthropic lève 965 milliards de dollars en série H et lance Opus 4.8 avec Dynamic Workflows et ultracode. Expansion majeure du financement et nouvelles capacités de modèle.
Anthropic lève 65 milliards de dollars en Series H à une valorisation de 965 milliards de dollars. Le chiffre d'affaires annualisé atteint 47 milliards de dollars selon le CFO Krishna Rao. L'entreprise investira dans la recherche en sécurité, la capacité de calcul et l'expansion de sa gamme Claude.
FuRA propose une méthode de fine-tuning efficace en paramètres basée sur la décomposition SVD complète des matrices de poids. En gelant une base singulière préentraînée et optimisant uniquement les composantes compactes via factorisation tensor-train, FuRA surpasse le fine-tuning complet et LoRA sur LLaMA-3-8B (+1.37 en raisonnement) et VLMs, avec efficacité comparable à LoRA.
Étude systématique comparant les modèles d'espace d'état (SSM) pour la classification de séries temporelles. S4D surpasse les variantes Mamba en précision et efficacité. Les auteurs proposent MS4 et MS4N, versions légères de S4D avec projection linéaire et mélange de canaux. Évaluation sur 59 datasets (MONSTER, UEA) : MS4N égale des modèles 10× plus grands en paramètres.
Delta Attention Residuals améliore les connexions résiduelles en routant sur les différences entre couches (deltas) plutôt que sur les états cachés cumulatifs. Résultats : −8.2% PPL à 7.6B, routing 1.8× plus net (max weight 0.2→0.6), <0.01% overhead paramétrique. Code et paper disponibles.
ImProver 2 est un framework neurosymbolique pour optimiser automatiquement les preuves formelles en Lean 4. Un modèle 7B entraîné surpasse des modèles bien plus grands et rivalise avec les modèles frontière. Le scaffold expose la structure formelle et des abstractions informelles légères.
L'alignement cerveau-LLM dépend de la langue d'entraînement, non de propriétés inhérentes à l'anglais. Test sur 112 participants (anglais, chinois, français) avec 7 LLMs : un modèle dominé par le chinois (Baichuan2-7B) inverse le gradient d'alignement. La distance typologique et la fertilité de tokenization expliquent les variations restantes.
Des autoencodeurs creux (SAE) décomposent GPT-2 XL et Llama-3.1-8B en 16K-32K features interprétables par couche. Les features sémantiques seules récupèrent 94% de la performance d'encodage peak (r=0.285), et s'alignent avec l'organisation corticale sémantique connue (ρ=0.72, p<0.001). Les résultats généralisent sur l'anglais, le chinois et le français.
Étude montrant que l'effondrement de modèle (dégradation progressive des LLM entraînés sur leurs propres sorties) suit les lois de l'évolution culturelle. Tests sur LLaMA-2-7B et Mistral-7B sur 10 générations en anglais, allemand et turc révèlent que la compositionnalité suit une trajectoire non-monotone (hausse puis baisse). Le filtrage basé sur les tâches, pas aléatoire, maintient la qualité.
IDS (Inductive Deductive Synthesis) est un système multi-agent LLM qui synthétise conjointement implémentation et preuve formelle pour les systèmes distribués. Sur 7 spécifications de key-value stores, IDS atteint 7/7 en 6.8h/$106, contre 2/7 pour GPT-5.4 et Claude Opus 4.6. Résultat 200x plus rapide que l'effort expert, 17% moins cher que les agents SOTA.