Édition du2026-06-15

La journée des evals cassés : biais de genre systématique, juges LLM à pile-ou-face, et une tentative de standardisation globale

Par l'équipe éditoriale

Les 5 picks du jour

Harsher on Male? Evaluating LLMs on Gender-Asymmetric Moral Framing Across Diverse Conflict Scenarios

GAMA-Bench, un benchmark de 1 298 scénarios appairés, révèle une asymétrie systématique : les LLMs appliquent des standards de réponse plus sévères aux hommes qu'aux femmes pour le même comportement répréhensible. Les acteurs masculins reçoivent des cadres plus punitifs et blâmants, tandis que les actrices bénéficient de réponses plus thérapeutiques. Le pattern persiste sur 10 modèles et tous les types de scénarios.

Évaluations Sécurité IA Alignement

arXiv cs.CL·SIG 82

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

Étude de fiabilité sur LLM-as-a-Judge : GPT-4o-mini et GPT-4.1-mini montrent une instabilité importante avec 13,6% de retournements de préférence en moyenne, 28% des questions dépassant 20% de flip rate. Biais de position détecté (72% A-majority). Accord inter-juges à 76% (κ=0,51). 11 essais répétés nécessaires pour 95% de confiance.

Évaluations GPT OpenAI

arXiv cs.AI·SIG 82

Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results

Every Eval Ever propose un schéma unifié et un dépôt communautaire pour standardiser les résultats d'évaluation IA. Le système ingère 22 235 modèles et 2 273 benchmarks via un format JSON unique, avec convertisseurs automatiques depuis les harnesses populaires et leaderboards. Résout la fragmentation des résultats dispersés en formats incompatibles.

Évaluations Benchmarks Open source

arXiv cs.CL·SIG 82

CacheRL:Multi-Turn Tool-Calling Agents via Cached Rollouts and Hybrid Reward

CacheRL entraîne des petits modèles d'agents (Qwen3-4B-Thinking) atteignant 92% de précision sur tâches multi-étapes avec appels d'outils, soit 100× moins de calcul que GPT-5 (94%). Trois innovations : pipeline de trajectoires avec traces de raisonnement LLM, cache fuzzy trois niveaux éliminant exécutions live, récompenses adaptées au cache. SFT + GRPO améliorent la récompense de validation de 0,43 à 0,78.

Agents IA Reinforcement learning Raisonnement

arXiv cs.LG·SIG 82

The Weight Norm Sets the Grokking Timescale: A Causal Delay Law

Étude causale sur le grokking : l'intervalle avant généralisation dépend de la norme des poids. Sous décroissance de poids libre, les réseaux grockent à une norme critique Wc stable (CV 1-2%). En fixant la norme à ρ×Wc, le délai suit T_grok ∝ exp(α·ρ) avec α≈7.5 (R²=0.996 sur 4 moduli). La norme contrôle le délai 19× plus que le taux d'apprentissage.

Raisonnement Papers Benchmarks