Deux papiers d'aujourd'hui traitent du même problème sous des angles opposés : où et comment faire tourner l'inférence efficacement. L'implémentation RAG sur Snapdragon X Elite (arXiv:2606.11447 — embedding, reranking, génération LLM entièrement sur le Hexagon NPU) affiche 18,1× plus rapide en prefilling et 4× moins d'énergie que CPU, avec une qualité jugée équivalente par GPT-4.1 (9,32 vs 8,95). De l'autre côté, INFRAMIND (arXiv:2606.11440) orchestre des agents en tenant compte de l'état réel de l'infra — files GPU, cache KV, latences — et obtient 7× moins de latence et 99,9% de conformité SLO en surcharge. Le signal commun : l'optimisation de l'inférence ne se joue plus seulement au niveau modèle, elle se joue au niveau système, que ce soit sur un NPU à 4W ou dans un cluster sous pression.
Sur le front agents, ISE (arXiv:2606.11520) est le résultat le plus concret : fine-tuner Qwen3-8B sur 23 132 trajectoires OS multi-tours générées avec exécution réelle en sandbox fait passer ClawEval de 19,3 à 37,7 pass@1, surpassant GPT-4o zero-shot et Qwen3-32B. C'est une démonstration directe que la qualité des données de trajectoire — ici ancrées dans l'exécution live, pas synthétisées statiquement — compte plus que la taille du modèle. SocSci-Repro-Bench (arXiv:2606.11447) complète le tableau côté évaluation : 221 tâches de reproduction de résultats publiés en sciences sociales, Claude Code devant Codex, avec des agents capables d'identifier les questions de recherche sans simplement mémoriser les outputs. Un benchmark utile pour quiconque déploie des agents sur des workflows analytiques réels.
ProHiFlo (arXiv:2606.11243) est le signal le plus vertical : 58,9% de succès sur le scaffolding de sites actifs enzymatiques contre 41,2% pour RFDiffusion, avec 4× moins d'étapes d'échantillonnage. L'architecture SE(3)-équivariante coarse-to-fine avec guidance fonctionnelle via prédicteurs pré-entraînés est une direction claire pour la génération de protéines de novo. Moins directement actionnable pour la majorité des praticiens, mais à surveiller si vous travaillez sur des pipelines de drug discovery ou de biodesign.
SocSci-Repro-Bench, un benchmark de 221 tâches en sciences sociales, évalue la capacité des agents IA à reproduire des résultats publiés. Claude Code surpasse Codex, avec des taux de reproduction nettement supérieurs aux benchmarks existants. Les agents identifient aussi les questions de recherche et ne mémorisent pas principalement les résultats.
Première implémentation complète d'un pipeline RAG sur NPU mobile (Snapdragon X Elite Hexagon). Tous les stages (embedding, reranking, génération LLM) tournent on-device. Sur benchmark Wikipedia 120 requêtes : 18.1x plus rapide en prefilling LLM, 4.0x moins d'énergie système que CPU, qualité réponses identique (GPT-4.1 judge : 9.32 vs 8.95 CPU).
INFRAMIND est un framework pour l'orchestration multi-agent qui intègre l'état réel de l'infrastructure (files d'attente GPU, cache KV, latences). Via planification adaptative, routage par étape et ordonnancement intelligent, il optimise la sélection de modèles et topologies sous charge concurrente. Résultats : +7.6pp de précision à faible charge, latence 7x inférieure, 99.9% de conformité SLO en surcharge.
ProHiFlo est un framework de flow matching hiérarchique pour la génération de protéines de novo. Il combine génération coarse-to-fine (squelette puis atomes), guidance fonctionnelle via prédicteurs pré-entraînés, et architecture SE(3)-équivariante. Sur le scaffolding de sites actifs enzymatiques, ProHiFlo atteint 58,9% de succès vs 41,2% pour RFDiffusion, avec 4× moins d'étapes d'échantillonnage.
ISE est un paradigme de synthèse en trois étapes pour générer des trajectoires d'agents OS multi-tours avec exécution réelle. 43 956 intents structurés, 23 132 trajectoires (8,12 tours utilisateur en moyenne), exécution live en sandbox. Fine-tuning Qwen3-8B sur ISETrace : ClawEval 19,3→37,7 pass@1, surpasse GPT-4o zéro-shot et Qwen3-32B.