arXiv cs.AI·19 mai 2026

QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

Signal

Hype

En 3 lignesQSTRBench est un benchmark évaluant la capacité des LLM à raisonner sur le calcul spatial et temporel qualitatif (QSTR). Il couvre 9 calculi (Point Algebra, Allen's Interval Algebra, RCC-5/8/22, etc.) avec composition tables, relations inverses et voisinages conceptuels. Les modèles testés surpassent le hasard mais aucun ne répond correctement à tous les cas. RCC-22 s'avère le plus difficile.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

Autres angles sur ce sujet