Retour au feed
arXiv cs.AI·

GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models

Signal
78
Hype
25
En 3 lignesGENSTRAT introduit un benchmark d'évaluation pour le raisonnement stratégique des LLM via des jeux de cartes générés procéduralement. Évaluation de 9 modèles (GPT-5, Claude, Gemini-3.1-Pro) sur 36 000+ matchs. Méthodologie décomposant les compétences sur 6 axes et mesurant la volatilité locale (jaggedness) pour diagnostiquer les déploiements réels.
Lire la source
Ton avis ?
BenchmarksRaisonnementGPTClaudeGemini

Résumé généré par Claude — vérifié par l'humain