arXiv cs.AI·25 mai 2026

GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models

Signal

Hype

En 3 lignesGENSTRAT introduit un benchmark d'évaluation pour le raisonnement stratégique des LLM via des jeux de cartes générés procéduralement. Évaluation de 9 modèles (GPT-5, Claude, Gemini-3.1-Pro) sur 36 000+ matchs. Méthodologie décomposant les compétences sur 6 axes et mesurant la volatilité locale (jaggedness) pour diagnostiquer les déploiements réels.

Lire la source

Ton avis ?

Benchmarks Raisonnement GPT Claude Gemini

Résumé généré par Claude — vérifié par l'humain

GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models

Autres angles sur ce sujet