Retour au feed
arXiv cs.AI·

Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games

Signal
78
Hype
15
En 3 lignesBenchmark d'évaluation du raisonnement interactif pour LLM basé sur 474 jeux exécutables. Les modèles reçoivent uniquement les règles, doivent interroger un environnement caché, intégrer observations partielles et décider quand répondre. Évalue robustesse contextuelle, adaptation métacognitive et efficacité d'interaction sur modèles frontier.
Lire la source
Ton avis ?
RaisonnementÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain