Retour au feed
Reddit r/MachineLearning·

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]

Signal
72
Hype
25
1 autres source couvrent ce sujet →
En 3 lignesBenchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.
Lire la source
Ton avis ?
VisionBenchmarksRAGClaude

Résumé généré par Claude — vérifié par l'humain