Trois papiers publiés le même jour attaquent le même problème sous des angles différents : on ne sait pas évaluer les LLMs de façon fiable. GAMA-Bench (arXiv:2606.14068, 1 298 scénarios appairés, 10 modèles) documente une asymétrie de jugement moral persistante — les acteurs masculins reçoivent systématiquement des cadres plus punitifs que les actrices pour un comportement identique. Ce n'est pas un artefact de prompt : le pattern tient sur tous les types de scénarios testés. En parallèle, l'étude sur LLM-as-a-Judge (arXiv:2606.13685) mesure que GPT-4o-mini et GPT-4.1-mini retournent leur préférence dans 13,6% des cas en moyenne, avec 28% des questions dépassant 20% de flip rate et un biais de position à 72% A-majority. Conséquence pratique : il faut 11 essais répétés pour atteindre 95% de confiance sur un jugement. Quiconque utilise ces modèles comme juges uniques dans un pipeline d'éval ou de RLHF introduit du bruit structurel non quantifié.
Every Eval Ever (arXiv:2606.14516) tente une réponse infrastructurelle : un schéma JSON unifié ingérant 22 235 modèles et 2 273 benchmarks, avec convertisseurs depuis les harnesses existants. C'est le type de projet dont l'utilité dépend entièrement de l'adoption communautaire — le dépôt Hugging Face est ouvert, mais la fragmentation des formats d'éval est un problème de coordination autant que technique. À surveiller si les labs majeurs contribuent ou ignorent.
Côté agents, CacheRL (arXiv:2606.14179) est le résultat le plus actionnable du jour : Qwen3-4B-Thinking entraîné avec SFT + GRPO atteint 92% sur tâches multi-étapes avec appels d'outils, contre 94% pour GPT-5, avec 100× moins de calcul. Le cache fuzzy trois niveaux élimine les exécutions live pendant l'entraînement, ce qui rend le pipeline reproductible sans environnement sandbox coûteux. La récompense de validation passe de 0,43 à 0,78. Pour les équipes qui fine-tunent des agents sur des tâches outillées spécifiques, c'est une référence d'architecture concrète.
GAMA-Bench, un benchmark de 1 298 scénarios appairés, révèle une asymétrie systématique : les LLMs appliquent des standards de réponse plus sévères aux hommes qu'aux femmes pour le même comportement répréhensible. Les acteurs masculins reçoivent des cadres plus punitifs et blâmants, tandis que les actrices bénéficient de réponses plus thérapeutiques. Le pattern persiste sur 10 modèles et tous les types de scénarios.
Étude de fiabilité sur LLM-as-a-Judge : GPT-4o-mini et GPT-4.1-mini montrent une instabilité importante avec 13,6% de retournements de préférence en moyenne, 28% des questions dépassant 20% de flip rate. Biais de position détecté (72% A-majority). Accord inter-juges à 76% (κ=0,51). 11 essais répétés nécessaires pour 95% de confiance.
Every Eval Ever propose un schéma unifié et un dépôt communautaire pour standardiser les résultats d'évaluation IA. Le système ingère 22 235 modèles et 2 273 benchmarks via un format JSON unique, avec convertisseurs automatiques depuis les harnesses populaires et leaderboards. Résout la fragmentation des résultats dispersés en formats incompatibles.
CacheRL entraîne des petits modèles d'agents (Qwen3-4B-Thinking) atteignant 92% de précision sur tâches multi-étapes avec appels d'outils, soit 100× moins de calcul que GPT-5 (94%). Trois innovations : pipeline de trajectoires avec traces de raisonnement LLM, cache fuzzy trois niveaux éliminant exécutions live, récompenses adaptées au cache. SFT + GRPO améliorent la récompense de validation de 0,43 à 0,78.
Étude causale sur le grokking : l'intervalle avant généralisation dépend de la norme des poids. Sous décroissance de poids libre, les réseaux grockent à une norme critique Wc stable (CV 1-2%). En fixant la norme à ρ×Wc, le délai suit T_grok ∝ exp(α·ρ) avec α≈7.5 (R²=0.996 sur 4 moduli). La norme contrôle le délai 19× plus que le taux d'apprentissage.