Retour au feed
arXiv cs.AI·

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

Signal
78
Hype
15
En 3 lignesCheeseBench évalue 6 LLMs open-weight (3B-72B) sur 9 paradigmes de neurosciences comportementales (labyrinthe d'eau de Morris, T-maze, etc.). Qwen2.5-VL-7B atteint 52,6% de succès en ASCII vs 32,1% aléatoire et 78,9% pour les rongeurs. Scaling >7B donne des rendements décroissants; l'historique long et chain-of-thought dégradent les performances.
Lire la source
Ton avis ?
BenchmarksRaisonnementVisionQwenÉvaluations

Résumé généré par Claude — vérifié par l'humain