Édition du2026-06-12

Arbor prouve que la recherche arborescente multi-agent tient là où un agent seul s'effondre — et Apple cache que son fp8 est émulé

Par l'équipe éditoriale

Deux papiers d'infrastructure sortent du lot aujourd'hui. Arbor (arXiv:2606.12563) formalise ce que beaucoup soupçonnaient : un agent seul chargé d'optimiser un stack LLM full-stack gagne 33% puis s'effondre en quelques heures. L'architecture Orchestrator + Critic avec recherche arborescente atteint +193% d'amélioration Pareto throughput-latency sur les mêmes baselines. Le chiffre n'est pas surprenant en soi — la recherche arborescente est connue depuis AlphaGo — mais le valider empiriquement sur de l'optimisation d'inférence LLM, avec un mécanisme de poids et contrepoids explicite, donne enfin un blueprint reproductible pour les équipes qui construisent des agents d'ops longue durée. Rigel apporte une mauvaise nouvelle symétrique côté hardware : sur Apple M4 Max, l'opération matmul2d fp8 (E4M3) via Metal 4.1 est émulée sur les shader cores GPU, sans datapath matriciel dédié, et tourne à 0.94x le débit fp16. Quiconque a dimensionné une inférence locale sur M4 Max en comptant sur un gain fp8 réel doit revoir ses calculs. Le kernel GEMM fusionné de Rigel récupère +6.5–12.9% en régime cache-resident, mais ça reste un contournement, pas une solution.

Sur le front raisonnement formel, Pythagoras-Prover (4B et 32B, open-source) dépasse DeepSeek-Prover-V2-671B sur MiniF2F-Test avec 167x moins de paramètres (86.1% vs 82.4% pour le 4B, 93.0% pour le 32B). Le gain vient du curriculum SFT combiné à l'Augmented Lean Formalisation, pas d'une course aux paramètres. C'est le signal le plus clair à date que les prouveurs formels efficaces sont un problème de données et de curriculum, pas de taille de modèle. Le 32B résout aussi 93/672 problèmes PutnamBench, ce qui reste modeste mais mesurable sur un benchmark conçu pour être difficile pour les humains.

Deux papiers domaine complètent la sélection. OpenMedQ (14 datasets, ~3.35M échantillons) surpasse Med-PaLM M 562B sur PathVQA (75.9 BLEU-1) avec une fraction des paramètres — pattern identique à Pythagoras. MARD (7B) gagne +13.9pp sur la meilleure baseline et +6.7pp sur GPT-4o pour la prédiction d'interactions médicamenteuses au niveau mécanistique sur DrugBank avril 2026, avec une généralisation robuste aux paires inédites via distillation DPO pondérée par PRM. Les deux confirment que le préentraînement domaine dense + curriculum fin bat les gros modèles généralistes sur des tâches structurées.

Les 5 picks du jour

arXiv cs.AI·SIG 82

Arbor: Tree Search as a Cognition Layer for Autonomous Agents

Arbor est un framework multi-agent introduisant la recherche arborescente comme couche de cognition pour agents autonomes. Validé sur l'optimisation d'inférence LLM full-stack, il associe un agent Orchestrator et un agent Critic avec architecture de poids et contrepoids. Arbor atteint 193% d'amélioration Pareto throughput-latency vs baselines optimisées, contre 33% pour un agent seul qui s'écroule en quelques heures.

Agents IA Multi-agents Raisonnement

arXiv cs.AI·SIG 82

Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

Pythagoras-Prover est une famille open-source de prouveurs Lean efficaces (4B et 32B paramètres, incluant un prototype diffusion). Via curriculum SFT et Augmented Lean Formalisation (ALF), le modèle 4B surpasse DeepSeek-Prover-V2-671B sur MiniF2F-Test (86.1% vs 82.4%) avec 167x moins de paramètres. Le 32B atteint 93.0% sur MiniF2F-Test et résout 93/672 problèmes PutnamBench.

Raisonnement Génération de code Benchmarks

arXiv cs.AI·SIG 82

OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

OpenMedQ est un modèle vision-langage médical préentraîné sur 14 datasets (~3.35M échantillons) couvrant pathologie, radiologie, microscopie et QA clinique. Il atteint 75.9 BLEU-1 sur PathVQA (surpassant Med-PaLM M 562B) et 0.757 macro-F1 moyen sur 8 benchmarks de classification médicale non vus.

Vision Benchmarks Open source

arXiv cs.CL·SIG 82

MARD: Mirror-Augmented Reasoning Distillation for Mechanism-Level Drug-Drug Interaction Prediction

MARD est un modèle de 7B paramètres pour prédire les interactions médicamenteuses au niveau mécanistique (enzyme, axe pharmacodynamique). Utilise distillation de raisonnement avec DPO pondéré par récompense de processus et récupération mécanisme-aware. Sur DrugBank avril 2026 : +13.9pp vs meilleure baseline, +6.7pp vs GPT-4o, avec généralisation robuste aux paires de médicaments inédites.

Raisonnement Fine-tuning Reinforcement learning

arXiv cs.CL·SIG 82

Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU

Rigel caractérise empiriquement le chemin de calcul tensoriel Metal 4.1 sur Apple M4 Max. Les chercheurs découvrent que l'opération matmul2d fp8 (E4M3) est émulée, non accélérée (0.94x le débit fp16), exécutée sur les shader cores GPU sans datapath matriciel dédié, et accumule en ≥fp32. Un kernel GEMM fusionné gagne +6.5-12.9% en régime cache-resident.

Benchmarks Infrastructure Génération de code