Cinq articles publiés le même jour, cinq benchmarks. Ce n'est pas une coïncidence éditoriale — c'est un signal structurel. La communauté RL/LLM est entrée dans une phase d'instrumentation : avant de scaler, elle documente ce qui ne fonctionne pas. RL4F (arXiv:2606.07550) est l'exemple le plus net : un benchmark offline RL sur données réelles du tokamak DIII-D, quatre tâches de contrôle plasma multi-actuateurs, et une conclusion sobre — les méthodes offline model-based dominent, mais personne ne prétend avoir résolu le contrôle de fusion. ResearchClawBench enfonce le clou côté agents : Claude Code à 21.5/100 et Claude-Opus à 20.7/100 sur 40 tâches de recherche scientifique autonome. Ces scores ne sont pas des échecs de modèles — ils sont des échecs de protocoles expérimentaux et d'appariement de preuves, ce qui est précisément ce que les agents doivent maîtriser pour être utiles en science.
UniQL (arXiv:2606.08018) complète le tableau côté text-to-SQL : 24 544 requêtes, 16 dialectes (MySQL, PostgreSQL, T-SQL…), et une généralisation inter-dialectes qui s'effondre systématiquement. Pour les équipes qui déploient des pipelines NL-to-SQL en production sur des stacks hétérogènes, c'est un avertissement concret — le modèle qui performe sur Spider ne tient pas sur T-SQL. À mettre en regard avec la PR llama.cpp #24225 sur ggml-webgpu : speedups mesurés sur M2 Pro allant de 1.33x (Q5_K) à 3.78x (Q3_K_M) en prefill pp512. Ce n'est pas de la recherche, c'est de l'ingénierie de bas niveau qui rend les k-quants viables sur GPU web — pertinent pour quiconque déploie des modèles quantisés côté client.
Le cas Parakeet est le plus actionnable du lot. Omi Med STT v1, fine-tuning de Parakeet TDT 0.6B en CC-BY-4.0, descend à 2.37% M-WER sur termes cliniques contre 8.36% pour le modèle de base, et surpasse Whisper Large v3 Turbo et Qwen3 ASR sur 1 513 clips médicaux avec un RTFx de 145×. Runtime MLX/NeMo/GGUF, déployable sur Mac local. C'est le template exact de ce que le fine-tuning de niche peut produire quand la tâche est bien délimitée et les données de test représentatives — à opposer aux scores ResearchClawBench qui rappellent que les tâches ouvertes restent hors de portée.
RL4F est un benchmark open-source d'apprentissage par renforcement hors-ligne pour le contrôle du plasma dans la fusion nucléaire. Basé sur des données historiques du tokamak DIII-D, il évalue des méthodes imitation learning et offline RL sur quatre tâches de suivi multi-actuateurs (rotation, densité, température, pression). Les méthodes offline model-based RL obtiennent les meilleures performances moyennes.
ResearchClawBench évalue la capacité des agents IA à conduire des recherches scientifiques autonomes sur 40 tâches couvrant 10 domaines. Claude Code atteint 21.5/100, Claude-Opus 20.7/100. Les défaillances concentrent sur les protocoles expérimentaux, l'appariement des preuves et les lacunes conceptuelles.
UniQL est un benchmark de 24 544 requêtes SQL couvrant 16 dialectes différents (MySQL, PostgreSQL, T-SQL, etc.) pour évaluer la généralisation des modèles de langage en text-to-SQL. Les expériences montrent que les LLM actuels échouent à généraliser entre dialectes, avec performance variable selon le système de base de données.
PR llama.cpp améliore les performances matmul pour k-quants via WebGPU. Speedups mesurés sur M2 Pro : Q2_K 2.44x, Q3_K 3.27-3.78x, Q4_K 1.34-1.36x, Q5_K 1.33x, Q6_K 1.44-1.52x en prefill (pp512).
Fine-tuning de Parakeet 0.6B pour la transcription médicale en poids ouverts (CC-BY-4.0). Omi Med STT v1 atteint 2.37% M-WER (erreurs sur termes cliniques) vs 8.36% du modèle de base, avec 145× RTFx. Runtime multi-plateforme (MLX/NeMo/GGUF). Benchmark sur 1,513 clips médicaux : surpasse Whisper Large v3 Turbo et Qwen3 ASR en précision clinique.