Édition du2026-06-11

RAG sur NPU mobile, orchestration multi-agent sous contrainte SLO, et agents qui reproduisent la science : l'IA descend dans les couches basses

Deux papiers d'aujourd'hui traitent du même problème sous des angles opposés : où et comment faire tourner l'inférence efficacement. L'implémentation RAG sur Snapdragon X Elite (arXiv:2606.11447 — embedding, reranking, génération LLM entièrement sur le Hexagon NPU) affiche 18,1× plus rapide en prefilling et 4× moins d'énergie que CPU, avec une qualité jugée équivalente par GPT-4.1 (9,32 vs 8,95). De l'autre côté, INFRAMIND (arXiv:2606.11440) orchestre des agents en tenant compte de l'état réel de l'infra — files GPU, cache KV, latences — et obtient 7× moins de latence et 99,9% de conformité SLO en surcharge. Le signal commun : l'optimisation de l'inférence ne se joue plus seulement au niveau modèle, elle se joue au niveau système, que ce soit sur un NPU à 4W ou dans un cluster sous pression.

Sur le front agents, ISE (arXiv:2606.11520) est le résultat le plus concret : fine-tuner Qwen3-8B sur 23 132 trajectoires OS multi-tours générées avec exécution réelle en sandbox fait passer ClawEval de 19,3 à 37,7 pass@1, surpassant GPT-4o zero-shot et Qwen3-32B. C'est une démonstration directe que la qualité des données de trajectoire — ici ancrées dans l'exécution live, pas synthétisées statiquement — compte plus que la taille du modèle. SocSci-Repro-Bench (arXiv:2606.11447) complète le tableau côté évaluation : 221 tâches de reproduction de résultats publiés en sciences sociales, Claude Code devant Codex, avec des agents capables d'identifier les questions de recherche sans simplement mémoriser les outputs. Un benchmark utile pour quiconque déploie des agents sur des workflows analytiques réels.

ProHiFlo (arXiv:2606.11243) est le signal le plus vertical : 58,9% de succès sur le scaffolding de sites actifs enzymatiques contre 41,2% pour RFDiffusion, avec 4× moins d'étapes d'échantillonnage. L'architecture SE(3)-équivariante coarse-to-fine avec guidance fonctionnelle via prédicteurs pré-entraînés est une direction claire pour la génération de protéines de novo. Moins directement actionnable pour la majorité des praticiens, mais à surveiller si vous travaillez sur des pipelines de drug discovery ou de biodesign.

Les 5 picks du jour
01
02
03
04
05