Retour au feed
arXiv cs.CL·

GIM: Evaluating models via tasks that integrate multiple cognitive domains

Signal
82
Hype
15
En 3 lignesGIM est un benchmark de 820 problèmes originaux évaluant les LLM via l'intégration de multiples domaines cognitifs (satisfaction de contraintes, suivi d'état, vigilance épistémique) plutôt que la mémorisation ou le raisonnement abstrait pur. Calibrage IRT sur >200k paires prompt-réponse, 28 modèles, étude extensive du trade-off compute vs capacité sur 11 modèles et 35 configurations.
Lire la source
Ton avis ?
BenchmarksÉvaluationsRaisonnement

Résumé généré par Claude — vérifié par l'humain