Édition du2026-06-08

Quand le multi-agent échoue, comment les robots savent s'arrêter, et pourquoi macOS casse vos benchmarks Linux

Deux papiers du jour attaquent le même problème sous des angles opposés : savoir quand escalader. AEGIS (arXiv:2606.06660) l'adresse dans la robotique longue-horizon — au lieu de laisser une politique faible s'emballer sur une étape critique, le système lit les activations gelées de cette politique pour détecter le risque, puis bascule vers une politique forte. Résultat sur LIBERO-Spatial : +10,1% de trajectoires récupérées contre 4,6% pour une escalade aveugle, avec la politique forte activée sur seulement 38% des étapes. L'étude sur le multi-agent (arXiv:2602.04234) arrive à une conclusion symétrique : dans 43,3% des cas sur 6 benchmarks de raisonnement, un agent unique bat un système multi-agent. L'Entropy Judger proposé sélectionne la configuration selon l'entropie de base du problème — ce qui revient à dire que l'overhead de coordination n'est justifié que si l'incertitude initiale est suffisamment élevée. Les deux papiers convergent : escalader par défaut est une mauvaise heuristique.

MacArena enfonce un clou que les praticiens computer-use connaissent intuitivement mais que les benchmarks ignoraient : les 421 tâches sur 50 applications macOS natif Apple Silicon montrent une régression de 26% pour les modèles performants sur Linux. OSWorld et macOSWorld ne capturent pas la complexité des interfaces graphiques multiplateformes — ce qui signifie que les scores publiés sur ces benchmarks ne prédisent pas les performances en production sur macOS. Pour les équipes qui déploient des agents GUI sur flotte Apple, c'est un signal d'évaluation direct.

Sur le front NLP, PolyFact (100K questions factuelles, 12 langues, ancrage Wikidata) montre que GRPO surpasse le fine-tuning supervisé pour la cohérence cross-lingue sur Qwen-2.5-7B et OLMo-2-1124-7B, en réduisant la spécialisation linguistique dans les couches MLP. HKJudge (~290K phrases, ~6,5M tokens de jugements criminels HK) est plus niche mais constitue la première ressource annotée au niveau phrase pour le discours juridique en common law — utile pour les équipes LegalTech qui travaillent sur des juridictions anglophones non-américaines.

Les 5 picks du jour
01
02
03
04
05
Quand le multi-agent échoue, comment les robots savent s'arrêter, et pourquoi macOS casse vos benchmarks Linux · Signal IA