Édition du2026-06-17

Les evals à budget fixe mentent, les agents e-commerce plafonnent à 57%, et PreAct compile les succès en FSM pour aller 13x plus vite.

Par l'équipe éditoriale

L'article arXiv sur l'inference compute (article 1) devrait forcer une révision des pratiques d'évaluation dans les équipes produit et recherche. Sur 12 modèles frontière testés sur FrontierMath, Humanity's Last Exam et TerminalBench, augmenter le budget de tokens ou autoriser des tentatives répétées améliore significativement les scores — ce qui signifie que les classements actuels reflètent autant les contraintes de budget d'évaluation que les capacités réelles des modèles. Conséquence directe : comparer GPT-4o à Claude 3.7 sur un benchmark à budget fixe revient à comparer des voitures avec des réservoirs de tailles différentes. Toute décision de sélection de modèle basée sur ces benchmarks sans contrôle du compute d'inférence est potentiellement biaisée.

Du côté agents, deux signaux complémentaires. EComAgentBench (662 tâches, Amazon) teste un scénario réaliste : l'intention utilisateur est distribuée entre la requête, le profil et des clarifications successives, avec un plafond de 100 appels d'outils. Le meilleur modèle atteint 57,1% — ce qui indique que la gestion d'intentions fragmentées reste un problème ouvert, pas un problème résolu. PreAct attaque un problème différent : la latence et le coût sur des tâches répétitives. En compilant les exécutions réussies en petits programmes à états finis (FSM) rejoués 8,5 à 13x plus vite sans appel LLM par étape, et en ajoutant un validateur indépendant qui évite l'accumulation de FSM défaillants (+1,75 à 2,6 tâches sur benchmarks mobile/desktop/web), PreAct propose une architecture concrète pour les agents déployés en production sur des workflows stables.

L'article sur le Discrete-Log Clock (Nanda et al.) est le plus mécanistique de la sélection : sur la tâche a·b mod 113, un transformer n'implémente pas une DFT standard mais une transformation de caractères multiplicatifs, avec 96,9% des neurones MLP accordés à une seule fréquence et un spectre sparse (Gini 0,58 vs 0,07). Ce n'est pas une curiosité académique — c'est une contrainte sur ce qu'on peut attendre des transformers sur des tâches arithmétiques modulaires, et un outil de diagnostic pour l'interpretability. FllumaOne (100 000 modèles CAD, baseline Qwen2.5-Coder-1.5B à 99,14% de validité STEP) est surtout un signal sur la maturité des datasets code-natifs pour des domaines techniques fermés : la validité syntaxique est quasi-résolue, le vrai problème reste la sémantique géométrique.

Les 5 picks du jour

arXiv cs.AI·SIG 82

How Inference Compute Shapes Frontier LLM Evaluation

Étude sur 12 modèles frontière évaluant l'impact du compute d'inférence sur les performances. Trois interventions testées : budgets de tokens plus larges, compaction de contexte, tentatives répétées. Résultats : les budgets augmentés améliorent significativement les performances sur FrontierMath, Humanity's Last Exam, TerminalBench. Les évaluations à budget fixe sous-estiment les capacités des modèles récents.

Benchmarks Évaluations Raisonnement

arXiv cs.AI·SIG 82

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent

EComAgentBench est un benchmark de 662 tâches e-commerce évaluant les agents LLM sur des intentions cachées distribuées entre requête, profil utilisateur et clarifications. Les exigences sont dispersées et l'agent doit les découvrir en moins de 100 appels d'outils. Le meilleur modèle atteint 57,1% de précision.

Agents IA Benchmarks Évaluations

arXiv cs.LG·SIG 82

The Discrete-Log Clock: How a Transformer Learns Modular Multiplication

Des chercheurs montrent qu'un transformer apprenant la multiplication modulaire utilise une transformation de caractères multiplicatifs plutôt que la DFT standard. Sur a·b mod 113, le spectre devient sparse (Gini 0.58 vs 0.07), avec 96.9% des neurones MLP accordés à une seule fréquence. L'algorithme implémente un « Discrete-Log Clock » réduisant la multiplication à l'addition en espace logarithmique discret.

Raisonnement Papers Évaluations

arXiv cs.AI·SIG 82

PreAct: Computer-Using Agents that Get Faster on Repeated Tasks

PreAct compile les exécutions réussies d'agents informatiques en petits programmes à états finis, rejoués 8.5-13x plus vite sans appels LLM par étape. Un validateur indépendant vérifie chaque programme avant stockage. Sur trois benchmarks (mobile, desktop, web), cette vérification évite l'accumulation de programmes défaillants (+1.75-2.6 tâches).

Agents IA Génération de code Benchmarks

arXiv cs.AI·SIG 82

FllumaOne: A Code-Native Multimodal CAD Dataset with Executable Programs and Kernel-Validated Feature Histories

FllumaOne est un dataset CAD multimodal de 100 000 modèles générés par programmes Python exécutables dans Flluma (système CAD basé OpenCASCADE). Chaque échantillon aligne le programme avec un arbre de features, une représentation STEP, un nuage de points et des descriptions en langage naturel. Un baseline Qwen2.5-Coder-1.5B atteint 99.98% de validité syntaxe Python et 99.14% de validité export STEP.

Génération de code Benchmarks Vision