Édition du2026-06-02

Un 8B open-source bat GPT-5 en jeu stratégique multi-agent — pendant que GRPO s'attaque aux masques lithographiques et à la grammaire chinoise.

Le résultat le plus contre-intuitif du jour vient de MindGames Arena (NeurIPS 2025) : un modèle 8B entraîné par l'équipe In2AI avec une méthode d'attribution retardée de récompenses par étape (delayed per-step reward attribution) a remporté les deux catégories du benchmark — Open et Efficient — en surpassant GPT-5. Le signal ici n'est pas « les petits modèles battent les grands » en général, c'est que l'architecture de récompense en interaction multi-agent stratégique est un levier sous-exploité : quand on décompose correctement le crédit temporel dans un jeu à plusieurs tours, un 8B entraîné avec vLLM devient compétitif face à un frontier model. C'est une direction de recherche concrète pour quiconque construit des agents en environnement adversarial ou coopératif.

GRPO continue d'étendre son périmètre applicatif bien au-delà du NLP. LithoGRPO (arXiv:2606.00228v1) l'applique à l'optimisation de masques en lithographie inverse pour semi-conducteurs : flow matching + fonction de récompense physique explicite + algorithme de comptage de tirs 130× plus rapide que l'existant, résultats SOTA sur les deux axes (optimisation et apprentissage). Le même jour, CSRP fait la même chose sur la correction grammaticale chinoise — pipeline en trois étapes (pré-entraînement continu sur 5,9M échantillons, fine-tuning CoT, GRPO avec récompenses efficacité-aware) — et passe GPT-4 en correction orthographique avec 59,61 F1 sur CSCD, 50,99 F₀.₅ sur NACGEC. GRPO est en train de devenir le couteau suisse du fine-tuning orienté tâche avec contraintes physiques ou formelles.

Deux papiers en périphérie méritent attention. Le framework de red teaming médical (X-BAI, 11 LLMs, 690 scénarios cliniques) documente une amplification d'erreur de 10 à 20% sur les tâches d'équité et des défaillances critiques masquées par la précision moyenne — GPT-5 et Claude Opus 4.1 inclus, scores entre 0,791 et 0,984 selon les domaines. La précision agrégée est un indicateur trompeur en contexte clinique : ce papier fournit une grille d'évaluation hybride (automatisée + validation humaine) directement réutilisable. BitsMoE, de son côté, règle un problème pratique sur Qwen3-30B : quantification MoE à 2 bits via allocation spectrale de bits (SVD sur la base partagée, quantification fine des facteurs experts), +27,83 points de précision et ×1,76 de débit de décodage vs GPTQ. Pour qui déploie des MoE en production contrainte, c'est un gain immédiat.

Les 5 picks du jour
01
02
03
04
05