Le chiffre qui domine la journée : Anthropic clôture une Série H à 965 milliards de dollars — un ordre de grandeur au-dessus de tout ce qu'on avait vu dans le secteur — et sort simultanément Opus 4.8 avec Dynamic Workflows et ultracode. La simultanéité n'est pas anodine : lever à cette valorisation exige de montrer une roadmap produit crédible sur les agents et la génération de code, deux marchés où Anthropic est directement en compétition avec OpenAI o3 et Gemini 2.5 Pro. Dynamic Workflows suggère une architecture d'orchestration native plutôt qu'un simple wrapper d'API, ce qui positionne Anthropic sur la couche infra agent, pas seulement sur le modèle.
Deux papiers publiés aujourd'hui convergent sur le même problème sous-jacent : les LLM savent plus qu'ils ne disent. Le premier (Reddit r/ML, code sur github.com/synthiumjp/metacog-engineering) montre via LoRA + activation patching causal (ρ=0.976) que les modèles 7B–70B détectent correctement leurs erreurs en interne (AUROC 0.76–0.88) mais affichent systématiquement 99% de confiance verbale. Le fine-tuning ciblé par probe corrige cette divergence. Le second, MechELK (arXiv:2605.28825v1), attaque le même problème par interprétabilité méchaniste : localisation SAE + probing causal + ingénierie de représentation → 84,7% sur TruthfulQA, +6,2% vs Contrastive Consistency Search, et 78,3% de récupération des connaissances cachées quand la sortie est fausse. Les deux approches sont complémentaires : l'une corrige le comportement, l'autre l'explique.
Sur la sécurité opérationnelle, le benchmark des 14 garde-fous open-source (79 331 échantillons, 8 catégories NIST) produit un résultat contre-intuitif à retenir pour tout choix d'architecture : Qwen Guard 4B atteint 83,97% de recall, devant Llama Guard 12B et GPT-OSS Safeguard 20B. La taille du modèle ne corrèle pas avec la performance de détection. Pour les équipes qui dimensionnent leur stack de modération, c'est un signal direct : optimiser sur les benchmarks ciblés (HarmBench, StrongREJECT, BeaverTails, RealToxicityPrompts) plutôt que sur les paramètres.
Anthropic lève 965 milliards de dollars en série H et lance Opus 4.8 avec Dynamic Workflows et ultracode. Expansion majeure du financement et nouvelles capacités de modèle.
Recherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.
Évaluation de 14 modèles de sécurité open-source sur 79 331 échantillons couvrant 8 catégories de risque NIST. Qwen Guard (4B) atteint le meilleur recall (83,97%), surpassant Llama Guard (12B) et GPT-OSS Safeguard (20B). La taille du modèle ne corrèle pas avec la performance de détection.
MechELK est un framework d'interprétabilité méchaniste pour extraire les connaissances latentes des LLM. En trois étapes (localisation via SAE, vérification par probing causal, élicitation par ingénierie de représentation), il atteint 84,7% de précision sur TruthfulQA, surpassant CCS de 6,2% et détecte 78,3% des connaissances cachées quand la sortie du modèle est incorrecte.
Framework mathématique pour surrogate modeling de réservoirs pétroliers (Norne, 46×112×22 grille) via Fourier Neural Operators (FNO) et variante physics-informed (PINO). Validation empirique : R²>0.99 (pétrole), R²>0.90 (gaz), R²≈0.80 (pression) sur 3298 jours. Speedup 10⁴× vs simulateur OPM, ensemble 1000 membres en <1 min sur GPU B200.