Édition du2026-06-09

Benchmarks partout, performances réelles nulle part : la semaine où l'IA mesure ses propres limites

Cinq articles publiés le même jour, cinq benchmarks. Ce n'est pas une coïncidence éditoriale — c'est un signal structurel. La communauté RL/LLM est entrée dans une phase d'instrumentation : avant de scaler, elle documente ce qui ne fonctionne pas. RL4F (arXiv:2606.07550) est l'exemple le plus net : un benchmark offline RL sur données réelles du tokamak DIII-D, quatre tâches de contrôle plasma multi-actuateurs, et une conclusion sobre — les méthodes offline model-based dominent, mais personne ne prétend avoir résolu le contrôle de fusion. ResearchClawBench enfonce le clou côté agents : Claude Code à 21.5/100 et Claude-Opus à 20.7/100 sur 40 tâches de recherche scientifique autonome. Ces scores ne sont pas des échecs de modèles — ils sont des échecs de protocoles expérimentaux et d'appariement de preuves, ce qui est précisément ce que les agents doivent maîtriser pour être utiles en science.

UniQL (arXiv:2606.08018) complète le tableau côté text-to-SQL : 24 544 requêtes, 16 dialectes (MySQL, PostgreSQL, T-SQL…), et une généralisation inter-dialectes qui s'effondre systématiquement. Pour les équipes qui déploient des pipelines NL-to-SQL en production sur des stacks hétérogènes, c'est un avertissement concret — le modèle qui performe sur Spider ne tient pas sur T-SQL. À mettre en regard avec la PR llama.cpp #24225 sur ggml-webgpu : speedups mesurés sur M2 Pro allant de 1.33x (Q5_K) à 3.78x (Q3_K_M) en prefill pp512. Ce n'est pas de la recherche, c'est de l'ingénierie de bas niveau qui rend les k-quants viables sur GPU web — pertinent pour quiconque déploie des modèles quantisés côté client.

Le cas Parakeet est le plus actionnable du lot. Omi Med STT v1, fine-tuning de Parakeet TDT 0.6B en CC-BY-4.0, descend à 2.37% M-WER sur termes cliniques contre 8.36% pour le modèle de base, et surpasse Whisper Large v3 Turbo et Qwen3 ASR sur 1 513 clips médicaux avec un RTFx de 145×. Runtime MLX/NeMo/GGUF, déployable sur Mac local. C'est le template exact de ce que le fine-tuning de niche peut produire quand la tâche est bien délimitée et les données de test représentatives — à opposer aux scores ResearchClawBench qui rappellent que les tâches ouvertes restent hors de portée.

Les 5 picks du jour
01
02
03
04
05