Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]
Signal
72
Hype
25
En 3 lignesBenchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain