Édition du2026-06-11

RAG sur NPU mobile, orchestration multi-agent sous contrainte SLO, et agents qui reproduisent la science : l'IA descend dans les couches basses

Par l'équipe éditoriale

Deux papiers d'aujourd'hui traitent du même problème sous des angles opposés : où et comment faire tourner l'inférence efficacement. L'implémentation RAG sur Snapdragon X Elite (arXiv:2606.11447 — embedding, reranking, génération LLM entièrement sur le Hexagon NPU) affiche 18,1× plus rapide en prefilling et 4× moins d'énergie que CPU, avec une qualité jugée équivalente par GPT-4.1 (9,32 vs 8,95). De l'autre côté, INFRAMIND (arXiv:2606.11440) orchestre des agents en tenant compte de l'état réel de l'infra — files GPU, cache KV, latences — et obtient 7× moins de latence et 99,9% de conformité SLO en surcharge. Le signal commun : l'optimisation de l'inférence ne se joue plus seulement au niveau modèle, elle se joue au niveau système, que ce soit sur un NPU à 4W ou dans un cluster sous pression.

Sur le front agents, ISE (arXiv:2606.11520) est le résultat le plus concret : fine-tuner Qwen3-8B sur 23 132 trajectoires OS multi-tours générées avec exécution réelle en sandbox fait passer ClawEval de 19,3 à 37,7 pass@1, surpassant GPT-4o zero-shot et Qwen3-32B. C'est une démonstration directe que la qualité des données de trajectoire — ici ancrées dans l'exécution live, pas synthétisées statiquement — compte plus que la taille du modèle. SocSci-Repro-Bench (arXiv:2606.11447) complète le tableau côté évaluation : 221 tâches de reproduction de résultats publiés en sciences sociales, Claude Code devant Codex, avec des agents capables d'identifier les questions de recherche sans simplement mémoriser les outputs. Un benchmark utile pour quiconque déploie des agents sur des workflows analytiques réels.

ProHiFlo (arXiv:2606.11243) est le signal le plus vertical : 58,9% de succès sur le scaffolding de sites actifs enzymatiques contre 41,2% pour RFDiffusion, avec 4× moins d'étapes d'échantillonnage. L'architecture SE(3)-équivariante coarse-to-fine avec guidance fonctionnelle via prédicteurs pré-entraînés est une direction claire pour la génération de protéines de novo. Moins directement actionnable pour la majorité des praticiens, mais à surveiller si vous travaillez sur des pipelines de drug discovery ou de biodesign.

Les 5 picks du jour

arXiv cs.CL·SIG 82

AI Coding Agents Can Reproduce Social Science Findings

SocSci-Repro-Bench, un benchmark de 221 tâches en sciences sociales, évalue la capacité des agents IA à reproduire des résultats publiés. Claude Code surpasse Codex, avec des taux de reproduction nettement supérieurs aux benchmarks existants. Les agents identifient aussi les questions de recherche et ne mémorisent pas principalement les résultats.

Claude Code Benchmarks Génération de code

arXiv cs.CL·SIG 82

Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

Première implémentation complète d'un pipeline RAG sur NPU mobile (Snapdragon X Elite Hexagon). Tous les stages (embedding, reranking, génération LLM) tournent on-device. Sur benchmark Wikipedia 120 requêtes : 18.1x plus rapide en prefilling LLM, 4.0x moins d'énergie système que CPU, qualité réponses identique (GPT-4.1 judge : 9.32 vs 8.95 CPU).

RAG Embeddings

arXiv cs.AI·SIG 82

INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration

INFRAMIND est un framework pour l'orchestration multi-agent qui intègre l'état réel de l'infrastructure (files d'attente GPU, cache KV, latences). Via planification adaptative, routage par étape et ordonnancement intelligent, il optimise la sélection de modèles et topologies sous charge concurrente. Résultats : +7.6pp de précision à faible charge, latence 7x inférieure, 99.9% de conformité SLO en surcharge.

Multi-agents Agents IA Reinforcement learning

arXiv cs.LG·SIG 82

ProHiFlo: Hierarchical Flow Matching with Functional Guidance for De Novo Protein Generation

ProHiFlo est un framework de flow matching hiérarchique pour la génération de protéines de novo. Il combine génération coarse-to-fine (squelette puis atomes), guidance fonctionnelle via prédicteurs pré-entraînés, et architecture SE(3)-équivariante. Sur le scaffolding de sites actifs enzymatiques, ProHiFlo atteint 58,9% de succès vs 41,2% pour RFDiffusion, avec 4× moins d'étapes d'échantillonnage.

Papers Benchmarks Raisonnement

arXiv cs.CL·SIG 82

ISE: An Execution-Grounded Recipe for Multi-Turn OS-Agent Trajectories

ISE est un paradigme de synthèse en trois étapes pour générer des trajectoires d'agents OS multi-tours avec exécution réelle. 43 956 intents structurés, 23 132 trajectoires (8,12 tours utilisateur en moyenne), exécution live en sandbox. Fine-tuning Qwen3-8B sur ISETrace : ClawEval 19,3→37,7 pass@1, surpasse GPT-4o zéro-shot et Qwen3-32B.

Agents IA Benchmarks Génération de code