arXiv cs.CL·25 mai 2026

Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks

Signal

Hype

En 3 lignesAudit de 11 benchmarks de raisonnement long-contexte : aucun ne contrôle la position de la tâche cible, le contenu de remplissage et la longueur du contexte. Évaluation de 9 LLMs avec Context Rot Evaluation (CRE) révèle des chutes drastiques de précision quand la tâche passe de fin à milieu (ex: Mimo-v2-Flash -88pp à 64K). Les modèles plus récents montrent moins de vulnérabilité positionnelle.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks

Autres angles sur ce sujet