Édition du2026-06-17

Les evals à budget fixe mentent, les agents e-commerce plafonnent à 57%, et PreAct compile les succès en FSM pour aller 13x plus vite.

L'article arXiv sur l'inference compute (article 1) devrait forcer une révision des pratiques d'évaluation dans les équipes produit et recherche. Sur 12 modèles frontière testés sur FrontierMath, Humanity's Last Exam et TerminalBench, augmenter le budget de tokens ou autoriser des tentatives répétées améliore significativement les scores — ce qui signifie que les classements actuels reflètent autant les contraintes de budget d'évaluation que les capacités réelles des modèles. Conséquence directe : comparer GPT-4o à Claude 3.7 sur un benchmark à budget fixe revient à comparer des voitures avec des réservoirs de tailles différentes. Toute décision de sélection de modèle basée sur ces benchmarks sans contrôle du compute d'inférence est potentiellement biaisée.

Du côté agents, deux signaux complémentaires. EComAgentBench (662 tâches, Amazon) teste un scénario réaliste : l'intention utilisateur est distribuée entre la requête, le profil et des clarifications successives, avec un plafond de 100 appels d'outils. Le meilleur modèle atteint 57,1% — ce qui indique que la gestion d'intentions fragmentées reste un problème ouvert, pas un problème résolu. PreAct attaque un problème différent : la latence et le coût sur des tâches répétitives. En compilant les exécutions réussies en petits programmes à états finis (FSM) rejoués 8,5 à 13x plus vite sans appel LLM par étape, et en ajoutant un validateur indépendant qui évite l'accumulation de FSM défaillants (+1,75 à 2,6 tâches sur benchmarks mobile/desktop/web), PreAct propose une architecture concrète pour les agents déployés en production sur des workflows stables.

L'article sur le Discrete-Log Clock (Nanda et al.) est le plus mécanistique de la sélection : sur la tâche a·b mod 113, un transformer n'implémente pas une DFT standard mais une transformation de caractères multiplicatifs, avec 96,9% des neurones MLP accordés à une seule fréquence et un spectre sparse (Gini 0,58 vs 0,07). Ce n'est pas une curiosité académique — c'est une contrainte sur ce qu'on peut attendre des transformers sur des tâches arithmétiques modulaires, et un outil de diagnostic pour l'interpretability. FllumaOne (100 000 modèles CAD, baseline Qwen2.5-Coder-1.5B à 99,14% de validité STEP) est surtout un signal sur la maturité des datasets code-natifs pour des domaines techniques fermés : la validité syntaxique est quasi-résolue, le vrai problème reste la sémantique géométrique.

Les 5 picks du jour
01
02
03
04
05