arXiv cs.AI·19 May 2026

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

Signal

Hype

In three linesCheeseBench evaluates 6 open-weight LLMs (3B-72B) on 9 behavioral neuroscience paradigms (Morris water maze, T-maze, etc.). Qwen2.5-VL-7B achieves 52.6% success on ASCII vs 32.1% random and 78.9% rodent baselines. Scaling >7B yields diminishing returns; longer context and chain-of-thought degrade performance.

Read source

Your take?

Benchmarks Reasoning Vision Qwen Evals

Summary generated by Claude — human-verified

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

Other angles on this story