Édition du2026-06-15

La journée des evals cassés : biais de genre systématique, juges LLM à pile-ou-face, et une tentative de standardisation globale

Trois papiers publiés le même jour attaquent le même problème sous des angles différents : on ne sait pas évaluer les LLMs de façon fiable. GAMA-Bench (arXiv:2606.14068, 1 298 scénarios appairés, 10 modèles) documente une asymétrie de jugement moral persistante — les acteurs masculins reçoivent systématiquement des cadres plus punitifs que les actrices pour un comportement identique. Ce n'est pas un artefact de prompt : le pattern tient sur tous les types de scénarios testés. En parallèle, l'étude sur LLM-as-a-Judge (arXiv:2606.13685) mesure que GPT-4o-mini et GPT-4.1-mini retournent leur préférence dans 13,6% des cas en moyenne, avec 28% des questions dépassant 20% de flip rate et un biais de position à 72% A-majority. Conséquence pratique : il faut 11 essais répétés pour atteindre 95% de confiance sur un jugement. Quiconque utilise ces modèles comme juges uniques dans un pipeline d'éval ou de RLHF introduit du bruit structurel non quantifié.

Every Eval Ever (arXiv:2606.14516) tente une réponse infrastructurelle : un schéma JSON unifié ingérant 22 235 modèles et 2 273 benchmarks, avec convertisseurs depuis les harnesses existants. C'est le type de projet dont l'utilité dépend entièrement de l'adoption communautaire — le dépôt Hugging Face est ouvert, mais la fragmentation des formats d'éval est un problème de coordination autant que technique. À surveiller si les labs majeurs contribuent ou ignorent.

Côté agents, CacheRL (arXiv:2606.14179) est le résultat le plus actionnable du jour : Qwen3-4B-Thinking entraîné avec SFT + GRPO atteint 92% sur tâches multi-étapes avec appels d'outils, contre 94% pour GPT-5, avec 100× moins de calcul. Le cache fuzzy trois niveaux élimine les exécutions live pendant l'entraînement, ce qui rend le pipeline reproductible sans environnement sandbox coûteux. La récompense de validation passe de 0,43 à 0,78. Pour les équipes qui fine-tunent des agents sur des tâches outillées spécifiques, c'est une référence d'architecture concrète.

Les 5 picks du jour
01
02
03
04
05
La journée des evals cassés : biais de genre systématique, juges LLM à pile-ou-face, et une tentative de standardisation globale · Signal IA