GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models
Signal
78
Hype
25
En 3 lignesGENSTRAT introduit un benchmark d'évaluation pour le raisonnement stratégique des LLM via des jeux de cartes générés procéduralement. Évaluation de 9 modèles (GPT-5, Claude, Gemini-3.1-Pro) sur 36 000+ matchs. Méthodologie décomposant les compétences sur 6 axes et mesurant la volatilité locale (jaggedness) pour diagnostiquer les déploiements réels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain