arXiv cs.AI·2 juin 2026

Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games

Signal

Hype

En 3 lignesBenchmark d'évaluation du raisonnement interactif pour LLM basé sur 474 jeux exécutables. Les modèles reçoivent uniquement les règles, doivent interroger un environnement caché, intégrer observations partielles et décider quand répondre. Évalue robustesse contextuelle, adaptation métacognitive et efficacité d'interaction sur modèles frontier.

Lire la source

Ton avis ?

Raisonnement Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games

Autres angles sur ce sujet