Reddit r/MachineLearning·24 mai 2026

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]

Signal

Hype

En 3 lignesBenchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.

Lire la source

Ton avis ?

Vision Benchmarks RAG Claude

Résumé généré par Claude — vérifié par l'humain

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]

Autres angles sur ce sujet