arXiv cs.AI·19 mai 2026

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

Signal

Hype

En 3 lignesCheeseBench évalue 6 LLMs open-weight (3B-72B) sur 9 paradigmes de neurosciences comportementales (labyrinthe d'eau de Morris, T-maze, etc.). Qwen2.5-VL-7B atteint 52,6% de succès en ASCII vs 32,1% aléatoire et 78,9% pour les rongeurs. Scaling >7B donne des rendements décroissants; l'historique long et chain-of-thought dégradent les performances.

Lire la source

Ton avis ?

Benchmarks Raisonnement Vision Qwen Évaluations

Résumé généré par Claude — vérifié par l'humain

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

Autres angles sur ce sujet