Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
Signal
78
Hype
15
En 3 lignesAudit de 11 benchmarks de raisonnement long-contexte : aucun ne contrôle la position de la tâche cible, le contenu de remplissage et la longueur du contexte. Évaluation de 9 LLMs avec Context Rot Evaluation (CRE) révèle des chutes drastiques de précision quand la tâche passe de fin à milieu (ex: Mimo-v2-Flash -88pp à 64K). Les modèles plus récents montrent moins de vulnérabilité positionnelle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain