Deux papiers du jour attaquent le même problème sous des angles opposés : savoir quand escalader. AEGIS (arXiv:2606.06660) l'adresse dans la robotique longue-horizon — au lieu de laisser une politique faible s'emballer sur une étape critique, le système lit les activations gelées de cette politique pour détecter le risque, puis bascule vers une politique forte. Résultat sur LIBERO-Spatial : +10,1% de trajectoires récupérées contre 4,6% pour une escalade aveugle, avec la politique forte activée sur seulement 38% des étapes. L'étude sur le multi-agent (arXiv:2602.04234) arrive à une conclusion symétrique : dans 43,3% des cas sur 6 benchmarks de raisonnement, un agent unique bat un système multi-agent. L'Entropy Judger proposé sélectionne la configuration selon l'entropie de base du problème — ce qui revient à dire que l'overhead de coordination n'est justifié que si l'incertitude initiale est suffisamment élevée. Les deux papiers convergent : escalader par défaut est une mauvaise heuristique.
MacArena enfonce un clou que les praticiens computer-use connaissent intuitivement mais que les benchmarks ignoraient : les 421 tâches sur 50 applications macOS natif Apple Silicon montrent une régression de 26% pour les modèles performants sur Linux. OSWorld et macOSWorld ne capturent pas la complexité des interfaces graphiques multiplateformes — ce qui signifie que les scores publiés sur ces benchmarks ne prédisent pas les performances en production sur macOS. Pour les équipes qui déploient des agents GUI sur flotte Apple, c'est un signal d'évaluation direct.
Sur le front NLP, PolyFact (100K questions factuelles, 12 langues, ancrage Wikidata) montre que GRPO surpasse le fine-tuning supervisé pour la cohérence cross-lingue sur Qwen-2.5-7B et OLMo-2-1124-7B, en réduisant la spécialisation linguistique dans les couches MLP. HKJudge (~290K phrases, ~6,5M tokens de jugements criminels HK) est plus niche mais constitue la première ressource annotée au niveau phrase pour le discours juridique en common law — utile pour les équipes LegalTech qui travaillent sur des juridictions anglophones non-américaines.
AEGIS détecte les étapes à haut risque dans les tâches de manipulation robotique longue-horizon en analysant les activations gelées d'une politique faible. Lors de détection, le contrôle bascule vers une politique plus forte. Sur LIBERO-Spatial, AEGIS récupère 10,1% des trajectoires perdues (vs 4,6% pour escalade aveugle), en n'activant la politique forte que sur 38% des étapes.
PolyFact, un dataset de 100K questions factuelles multilingues sur Wikidata couvrant 12 langues, évalue trois approches pour améliorer la cohérence factuelle cross-lingue dans Qwen-2.5-7B et OLMo-2-1124-7B. GRPO surpasse le fine-tuning supervisé en réduisant la spécialisation linguistique dans les couches MLP et têtes d'attention, favorisant des représentations cross-lingues partagées.
HKJudge est le premier corpus annoté au niveau phrase pour l'analyse du discours juridique. Il contient ~290k phrases et ~6.5M tokens de jugements criminels de Hong Kong, annotés par des experts en linguistique juridique. Deux tâches benchmark : classification de rôles rhétoriques (26 catégories) et extraction d'éléments légaux. Évaluation sur modèles BERT, LLMs open-source et commerciaux.
MacArena est un benchmark de 421 tâches sur 50 applications macOS, évaluant les agents de computer use sur l'environnement natif Apple Silicon. Les résultats montrent que les modèles performants sur Linux régressent de 26% sur macOS, révélant que les benchmarks existants ne capturent pas la complexité réelle des interfaces graphiques multiplateformes.
Étude empirique de 245 features d'entropie (token, agent, round) sur 6 benchmarks de raisonnement et 2 tâches agentic. Résultat contre-intuitif : agent unique surpasse MAS dans 43,3% des cas. Trois observations clés : préférence pour la certitude, entropie de base déterminante, variation selon la tâche. Algorithme Entropy Judger proposé pour sélectionner solutions MAS.