STORY · MULTI-SOURCE·2 sources·SIG 72

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]

Benchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.

Vision Benchmarks RAG Claude

Timeline

24 May 03:05
Reddit r/LocalLLaMA Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA
Benchmark on 30 long PDFs (171 questions) comparing vision LLMs vs OCR for document QA. Claude Sonnet 4.5 native PDF: 52% accuracy, $0.2552/query (5th/6). LlamaCloud premium + OCR: 59.6%, $0.1885/query. Vision underperforms on charts/tables; premium OCR more robust. Vision LLM has 7% intrinsic failure rate vs 0% for OCR after retry.
SIG 72
24 May 03:11
Reddit r/MachineLearning Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]
Benchmark on 30 long PDFs (171 questions) comparing native vision-LLMs vs OCR pipelines for document QA. Claude Sonnet 4.5 used. LlamaCloud premium achieves 59.6% accuracy ($0.1885/query), native vision 52% ($0.2552/query, most expensive). Vision underperforms on charts/tables; premium OCR more robust. Vision-LLM has 7% intrinsic failure rate vs 0% for OCR after retries.
SIG 72

Convergences

Entities cited across multiple sources.

Claude Sonnet 4.5×2
MMLongBench-Doc×2
LlamaCloud×2
Azure×2
McNemar's test×2

Diverging angles

Topics surfaced by some sources but not all.

#evals1/2

Read the primary source