arXiv cs.CL·19 mai 2026

GIM: Evaluating models via tasks that integrate multiple cognitive domains

Signal

Hype

En 3 lignesGIM est un benchmark de 820 problèmes originaux évaluant les LLM via l'intégration de multiples domaines cognitifs (satisfaction de contraintes, suivi d'état, vigilance épistémique) plutôt que la mémorisation ou le raisonnement abstrait pur. Calibrage IRT sur >200k paires prompt-réponse, 28 modèles, étude extensive du trade-off compute vs capacité sur 11 modèles et 35 configurations.

Lire la source

Ton avis ?

Benchmarks Évaluations Raisonnement

Résumé généré par Claude — vérifié par l'humain

GIM: Evaluating models via tasks that integrate multiple cognitive domains

Autres angles sur ce sujet