Deux papiers d'infrastructure sortent du lot aujourd'hui. Arbor (arXiv:2606.12563) formalise ce que beaucoup soupçonnaient : un agent seul chargé d'optimiser un stack LLM full-stack gagne 33% puis s'effondre en quelques heures. L'architecture Orchestrator + Critic avec recherche arborescente atteint +193% d'amélioration Pareto throughput-latency sur les mêmes baselines. Le chiffre n'est pas surprenant en soi — la recherche arborescente est connue depuis AlphaGo — mais le valider empiriquement sur de l'optimisation d'inférence LLM, avec un mécanisme de poids et contrepoids explicite, donne enfin un blueprint reproductible pour les équipes qui construisent des agents d'ops longue durée. Rigel apporte une mauvaise nouvelle symétrique côté hardware : sur Apple M4 Max, l'opération matmul2d fp8 (E4M3) via Metal 4.1 est émulée sur les shader cores GPU, sans datapath matriciel dédié, et tourne à 0.94x le débit fp16. Quiconque a dimensionné une inférence locale sur M4 Max en comptant sur un gain fp8 réel doit revoir ses calculs. Le kernel GEMM fusionné de Rigel récupère +6.5–12.9% en régime cache-resident, mais ça reste un contournement, pas une solution.
Sur le front raisonnement formel, Pythagoras-Prover (4B et 32B, open-source) dépasse DeepSeek-Prover-V2-671B sur MiniF2F-Test avec 167x moins de paramètres (86.1% vs 82.4% pour le 4B, 93.0% pour le 32B). Le gain vient du curriculum SFT combiné à l'Augmented Lean Formalisation, pas d'une course aux paramètres. C'est le signal le plus clair à date que les prouveurs formels efficaces sont un problème de données et de curriculum, pas de taille de modèle. Le 32B résout aussi 93/672 problèmes PutnamBench, ce qui reste modeste mais mesurable sur un benchmark conçu pour être difficile pour les humains.
Deux papiers domaine complètent la sélection. OpenMedQ (14 datasets, ~3.35M échantillons) surpasse Med-PaLM M 562B sur PathVQA (75.9 BLEU-1) avec une fraction des paramètres — pattern identique à Pythagoras. MARD (7B) gagne +13.9pp sur la meilleure baseline et +6.7pp sur GPT-4o pour la prédiction d'interactions médicamenteuses au niveau mécanistique sur DrugBank avril 2026, avec une généralisation robuste aux paires inédites via distillation DPO pondérée par PRM. Les deux confirment que le préentraînement domaine dense + curriculum fin bat les gros modèles généralistes sur des tâches structurées.
Arbor est un framework multi-agent introduisant la recherche arborescente comme couche de cognition pour agents autonomes. Validé sur l'optimisation d'inférence LLM full-stack, il associe un agent Orchestrator et un agent Critic avec architecture de poids et contrepoids. Arbor atteint 193% d'amélioration Pareto throughput-latency vs baselines optimisées, contre 33% pour un agent seul qui s'écroule en quelques heures.
Pythagoras-Prover est une famille open-source de prouveurs Lean efficaces (4B et 32B paramètres, incluant un prototype diffusion). Via curriculum SFT et Augmented Lean Formalisation (ALF), le modèle 4B surpasse DeepSeek-Prover-V2-671B sur MiniF2F-Test (86.1% vs 82.4%) avec 167x moins de paramètres. Le 32B atteint 93.0% sur MiniF2F-Test et résout 93/672 problèmes PutnamBench.
OpenMedQ est un modèle vision-langage médical préentraîné sur 14 datasets (~3.35M échantillons) couvrant pathologie, radiologie, microscopie et QA clinique. Il atteint 75.9 BLEU-1 sur PathVQA (surpassant Med-PaLM M 562B) et 0.757 macro-F1 moyen sur 8 benchmarks de classification médicale non vus.
MARD est un modèle de 7B paramètres pour prédire les interactions médicamenteuses au niveau mécanistique (enzyme, axe pharmacodynamique). Utilise distillation de raisonnement avec DPO pondéré par récompense de processus et récupération mécanisme-aware. Sur DrugBank avril 2026 : +13.9pp vs meilleure baseline, +6.7pp vs GPT-4o, avec généralisation robuste aux paires de médicaments inédites.
Rigel caractérise empiriquement le chemin de calcul tensoriel Metal 4.1 sur Apple M4 Max. Les chercheurs découvrent que l'opération matmul2d fp8 (E4M3) est émulée, non accélérée (0.94x le débit fp16), exécutée sur les shader cores GPU sans datapath matriciel dédié, et accumule en ≥fp32. Un kernel GEMM fusionné gagne +6.5-12.9% en régime cache-resident.