Deux articles du jour traitent d'agents en production réelle et non en benchmark lab. MapAgent (arXiv:2606.04513, Baidu Maps) est le cas le plus concret : boucle Judge-Planner-Worker déployée sur 360+ villes chinoises, 95% d'automatisation mesurée sur la génération de cartes au niveau des voies. Ce qui est notable n'est pas la performance brute mais l'architecture — la séparation explicite entre perception visuelle, vérification de spécifications et édition déterministe. SGDR (WebArena, GPT-4.1) suit une logique similaire côté agents web : récupération dynamique de sous-procédures ancrée sur l'état courant de la page plutôt que sur une bibliothèque statique. 37,5% de succès sur WebArena avec GPT-4.1, +10,6 points sur la baseline. Les deux systèmes convergent vers le même principe : l'agent généraliste pur ne scale pas, il faut découper en rôles spécialisés avec état explicite.
Sur l'inférence, SparDA (arXiv:2606.04511, NVlabs) et Recover-LoRA (arXiv:2606.04238) attaquent le même problème par des angles opposés. SparDA ajoute une quatrième projection par couche (Forecast) pour prédire les blocs KV nécessaires à la couche suivante et chevaucher préchargement CPU-GPU avec exécution — résultat : 1,7× speedup decode, jusqu'à 5,3× throughput sur modèles 8B en contexte long. Recover-LoRA part de l'autre bout : quantification agressive à 2-bit avec stratégie mixte W2/W4 sur les couches MLP, puis récupération d'accuracy via distillation logit sur 10k samples synthétiques. Sur Qwen3-4B, 80–95% d'accuracy récupérée, +7,5–23,3% de throughput. Les deux papiers sont complémentaires : SparDA optimise l'attention sur contextes longs, Recover-LoRA compresse les poids sans sacrifier la qualité — stack potentiellement cumulable.
Curation-Bench (arXiv:2606.04261) est le signal le plus sous-estimé du lot. L'évaluation montre que des agents généralistes atteignent les baselines publiées en dix itérations sur des tâches de curation de données d'entraînement — mais restent bloqués sur des variantes locales sans scaffolding. Avec citation et adaptation de méthodes existantes, un agent compose une politique surpassant les baselines avec 10× moins de données. Ce n'est pas un résultat sur la qualité des données produites, c'est un résultat sur la capacité des agents à automatiser le pipeline ML lui-même. À surveiller pour les équipes qui passent encore beaucoup de temps sur la préparation des datasets.
MapAgent est une architecture multi-agent pour générer des cartes routières au niveau des voies à l'échelle urbaine. Le système couple perception visuelle, vérification de spécifications et édition déterministe via une boucle Judge-Planner-Worker. Intégré à Baidu Maps pour 360+ villes, il atteint 95% d'automatisation en production.
SparDA introduit une architecture d'attention clairsemée découplée pour l'inférence LLM sur contextes longs. Une quatrième projection par couche (Forecast) prédit les blocs KV nécessaires à la couche suivante, chevauchant le préchargement CPU-GPU avec l'exécution courante. Sur modèles 8B, SparDA atteint 1.25× speedup prefill et 1.7× speedup decode, jusqu'à 5.3× throughput decode supérieur.
Recover-LoRA étend une méthode de récupération d'accuracy sans données aux LLM quantifiés à 2-bit. Une stratégie mixte quantifie sélectivement les couches gate/up du MLP en W2 tandis que les autres restent en W4, gagnant 7.5–23.3% en throughput. Des adaptateurs low-rank entraînés par distillation logit sur données synthétiques récupèrent 80–95% d'accuracy sur Qwen3-4B avec 10k samples.
SGDR, une méthode d'apprentissage de compétences en ligne, permet aux agents web de réutiliser des sous-procédures à chaque étape d'exécution. Contrairement aux approches statiques, SGDR récupère dynamiquement les compétences en fonction de l'état actuel de la page et de l'objectif. Sur WebArena, elle atteint 37,5% de succès avec GPT-4.1 et 24,3% avec Qwen3-4B, surpassant les baselines de 10,6% et 10,0%.
Curation-Bench évalue si des agents IA généralistes peuvent automatiser la curation de données d'entraînement. Les agents atteignent des baselines publiées en dix itérations, mais restent limités à des variantes locales. Avec scaffolding (citation et adaptation de méthodes), un agent compose autonomement une politique surpassant les baselines avec 10× moins de données.