Reddit r/LocalLLaMA·24 mai 2026

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA

Signal

Hype

En 3 lignesBenchmark sur 30 PDFs longs (171 questions) comparant vision LLMs vs OCR pour QA documentaire. Claude Sonnet 4.5 natif sur PDF: 52% accuracy, $0.2552/query (5e/6). LlamaCloud premium + OCR: 59.6%, $0.1885/query. Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retry.

Lire la source

Ton avis ?

Claude Vision RAG Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA

Autres angles sur ce sujet