Retour au feed
arXiv cs.AI·

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Signal
82
Hype
25
En 3 lignesMéthode d'attribution retardée de récompenses par étape pour entraîner des agents LLM en interaction multi-agent stratégique. Un modèle open-source 8B entraîné avec cette approche a surpassé GPT-5 et remporté les deux catégories (Open et Efficient) du benchmark MindGames Arena à NeurIPS 2025.
Lire la source
Ton avis ?
Agents IAMulti-agentsReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain