Retour au feed
arXiv cs.CL·

How Do Document Parsers Break? Auditing Structural Vulnerability in Document Intelligence

Signal
72
Hype
18
En 3 lignesÉtude de robustesse des pipelines d'analyse de mise en page (DLA) utilisés en RAG et QA sur documents longs. Les auteurs identifient un biais d'empreinte et proposent un cadre d'audit léger mesurant la perte structurelle au niveau des blocs (B-SLR). Sur 1 000 pages avec MinerU et PP-StructureV3, B-SLR corrèle mieux avec l'instabilité OCR (R²=0.727/0.916) que les métriques surfaciques (R²=0.384/0.110).
Lire la source
Ton avis ?
PapersÉvaluationsRAGBenchmarks

Résumé généré par Claude — vérifié par l'humain