Le résultat le plus contre-intuitif du jour vient de MindGames Arena (NeurIPS 2025) : un modèle 8B entraîné par l'équipe In2AI avec une méthode d'attribution retardée de récompenses par étape (delayed per-step reward attribution) a remporté les deux catégories du benchmark — Open et Efficient — en surpassant GPT-5. Le signal ici n'est pas « les petits modèles battent les grands » en général, c'est que l'architecture de récompense en interaction multi-agent stratégique est un levier sous-exploité : quand on décompose correctement le crédit temporel dans un jeu à plusieurs tours, un 8B entraîné avec vLLM devient compétitif face à un frontier model. C'est une direction de recherche concrète pour quiconque construit des agents en environnement adversarial ou coopératif.
GRPO continue d'étendre son périmètre applicatif bien au-delà du NLP. LithoGRPO (arXiv:2606.00228v1) l'applique à l'optimisation de masques en lithographie inverse pour semi-conducteurs : flow matching + fonction de récompense physique explicite + algorithme de comptage de tirs 130× plus rapide que l'existant, résultats SOTA sur les deux axes (optimisation et apprentissage). Le même jour, CSRP fait la même chose sur la correction grammaticale chinoise — pipeline en trois étapes (pré-entraînement continu sur 5,9M échantillons, fine-tuning CoT, GRPO avec récompenses efficacité-aware) — et passe GPT-4 en correction orthographique avec 59,61 F1 sur CSCD, 50,99 F₀.₅ sur NACGEC. GRPO est en train de devenir le couteau suisse du fine-tuning orienté tâche avec contraintes physiques ou formelles.
Deux papiers en périphérie méritent attention. Le framework de red teaming médical (X-BAI, 11 LLMs, 690 scénarios cliniques) documente une amplification d'erreur de 10 à 20% sur les tâches d'équité et des défaillances critiques masquées par la précision moyenne — GPT-5 et Claude Opus 4.1 inclus, scores entre 0,791 et 0,984 selon les domaines. La précision agrégée est un indicateur trompeur en contexte clinique : ce papier fournit une grille d'évaluation hybride (automatisée + validation humaine) directement réutilisable. BitsMoE, de son côté, règle un problème pratique sur Qwen3-30B : quantification MoE à 2 bits via allocation spectrale de bits (SVD sur la base partagée, quantification fine des facteurs experts), +27,83 points de précision et ×1,76 de débit de décodage vs GPTQ. Pour qui déploie des MoE en production contrainte, c'est un gain immédiat.
Méthode d'attribution retardée de récompenses par étape pour entraîner des agents LLM en interaction multi-agent stratégique. Un modèle open-source 8B entraîné avec cette approche a surpassé GPT-5 et remporté les deux catégories (Open et Efficient) du benchmark MindGames Arena à NeurIPS 2025.
LithoGRPO combine le flow matching et l'apprentissage par renforcement (GRPO) pour optimiser les masques de lithographie en fabrication de semi-conducteurs. Le framework intègre une fonction de récompense physique explicite et propose un algorithme de comptage de tirs 130x plus rapide. Résultats SOTA sur les méthodes d'optimisation et d'apprentissage.
CSRP, un framework en trois étapes pour la correction d'erreurs grammaticales chinoises, combine pré-entraînement continu (5.9M échantillons), fine-tuning avec Chain-of-Thought, et optimisation de politique avec récompenses conscientes de l'efficacité. Atteint 50.99 F₀.₅ sur NACGEC et surpasse GPT-4 en correction orthographique (59.61 F1).
Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.
BitsMoE propose une méthode de quantification pour modèles MoE basée sur l'allocation spectrale de bits. Via décomposition SVD, elle préserve la base partagée et quantifie finement les facteurs spécifiques aux experts. Sur Qwen3-30B à 2 bits, elle améliore la précision de 27,83 points et accélère le décodage de 1,76× vs GPTQ.