Édition du2026-06-04

Agents en production : de la carte urbaine au web scraping, l'IA opérationnelle cherche ses patterns d'architecture

Deux articles du jour traitent d'agents en production réelle et non en benchmark lab. MapAgent (arXiv:2606.04513, Baidu Maps) est le cas le plus concret : boucle Judge-Planner-Worker déployée sur 360+ villes chinoises, 95% d'automatisation mesurée sur la génération de cartes au niveau des voies. Ce qui est notable n'est pas la performance brute mais l'architecture — la séparation explicite entre perception visuelle, vérification de spécifications et édition déterministe. SGDR (WebArena, GPT-4.1) suit une logique similaire côté agents web : récupération dynamique de sous-procédures ancrée sur l'état courant de la page plutôt que sur une bibliothèque statique. 37,5% de succès sur WebArena avec GPT-4.1, +10,6 points sur la baseline. Les deux systèmes convergent vers le même principe : l'agent généraliste pur ne scale pas, il faut découper en rôles spécialisés avec état explicite.

Sur l'inférence, SparDA (arXiv:2606.04511, NVlabs) et Recover-LoRA (arXiv:2606.04238) attaquent le même problème par des angles opposés. SparDA ajoute une quatrième projection par couche (Forecast) pour prédire les blocs KV nécessaires à la couche suivante et chevaucher préchargement CPU-GPU avec exécution — résultat : 1,7× speedup decode, jusqu'à 5,3× throughput sur modèles 8B en contexte long. Recover-LoRA part de l'autre bout : quantification agressive à 2-bit avec stratégie mixte W2/W4 sur les couches MLP, puis récupération d'accuracy via distillation logit sur 10k samples synthétiques. Sur Qwen3-4B, 80–95% d'accuracy récupérée, +7,5–23,3% de throughput. Les deux papiers sont complémentaires : SparDA optimise l'attention sur contextes longs, Recover-LoRA compresse les poids sans sacrifier la qualité — stack potentiellement cumulable.

Curation-Bench (arXiv:2606.04261) est le signal le plus sous-estimé du lot. L'évaluation montre que des agents généralistes atteignent les baselines publiées en dix itérations sur des tâches de curation de données d'entraînement — mais restent bloqués sur des variantes locales sans scaffolding. Avec citation et adaptation de méthodes existantes, un agent compose une politique surpassant les baselines avec 10× moins de données. Ce n'est pas un résultat sur la qualité des données produites, c'est un résultat sur la capacité des agents à automatiser le pipeline ML lui-même. À surveiller pour les équipes qui passent encore beaucoup de temps sur la préparation des datasets.

Les 5 picks du jour
01
02
03
04
05
Agents en production : de la carte urbaine au web scraping, l'IA opérationnelle cherche ses patterns d'architecture · Signal IA