Édition du2026-06-12

Arbor prouve que la recherche arborescente multi-agent tient là où un agent seul s'effondre — et Apple cache que son fp8 est émulé

Deux papiers d'infrastructure sortent du lot aujourd'hui. Arbor (arXiv:2606.12563) formalise ce que beaucoup soupçonnaient : un agent seul chargé d'optimiser un stack LLM full-stack gagne 33% puis s'effondre en quelques heures. L'architecture Orchestrator + Critic avec recherche arborescente atteint +193% d'amélioration Pareto throughput-latency sur les mêmes baselines. Le chiffre n'est pas surprenant en soi — la recherche arborescente est connue depuis AlphaGo — mais le valider empiriquement sur de l'optimisation d'inférence LLM, avec un mécanisme de poids et contrepoids explicite, donne enfin un blueprint reproductible pour les équipes qui construisent des agents d'ops longue durée. Rigel apporte une mauvaise nouvelle symétrique côté hardware : sur Apple M4 Max, l'opération matmul2d fp8 (E4M3) via Metal 4.1 est émulée sur les shader cores GPU, sans datapath matriciel dédié, et tourne à 0.94x le débit fp16. Quiconque a dimensionné une inférence locale sur M4 Max en comptant sur un gain fp8 réel doit revoir ses calculs. Le kernel GEMM fusionné de Rigel récupère +6.5–12.9% en régime cache-resident, mais ça reste un contournement, pas une solution.

Sur le front raisonnement formel, Pythagoras-Prover (4B et 32B, open-source) dépasse DeepSeek-Prover-V2-671B sur MiniF2F-Test avec 167x moins de paramètres (86.1% vs 82.4% pour le 4B, 93.0% pour le 32B). Le gain vient du curriculum SFT combiné à l'Augmented Lean Formalisation, pas d'une course aux paramètres. C'est le signal le plus clair à date que les prouveurs formels efficaces sont un problème de données et de curriculum, pas de taille de modèle. Le 32B résout aussi 93/672 problèmes PutnamBench, ce qui reste modeste mais mesurable sur un benchmark conçu pour être difficile pour les humains.

Deux papiers domaine complètent la sélection. OpenMedQ (14 datasets, ~3.35M échantillons) surpasse Med-PaLM M 562B sur PathVQA (75.9 BLEU-1) avec une fraction des paramètres — pattern identique à Pythagoras. MARD (7B) gagne +13.9pp sur la meilleure baseline et +6.7pp sur GPT-4o pour la prédiction d'interactions médicamenteuses au niveau mécanistique sur DrugBank avril 2026, avec une généralisation robuste aux paires inédites via distillation DPO pondérée par PRM. Les deux confirment que le préentraînement domaine dense + curriculum fin bat les gros modèles généralistes sur des tâches structurées.

Les 5 picks du jour
01
02
03
04
05