Retour au feed
STORY · MULTI-SOURCES·2 sources·SIG 72

Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]

Benchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.

VisionBenchmarksRAGClaude

Chronologie

  1. 24 mai 03:05
    Reddit r/LocalLLaMAVision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA

    Benchmark sur 30 PDFs longs (171 questions) comparant vision LLMs vs OCR pour QA documentaire. Claude Sonnet 4.5 natif sur PDF: 52% accuracy, $0.2552/query (5e/6). LlamaCloud premium + OCR: 59.6%, $0.1885/query. Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retry.

    SIG 72
  2. 24 mai 03:11
    Reddit r/MachineLearningVision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D]

    Benchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.

    SIG 72

Convergences

Entités citées par plusieurs sources.

Angles divergents

Topics présents seulement dans certaines sources.

Lire la source primaire
Vision-capable LLMs vs. OCR for long-document (including charts, images, tables, etc.) QA [D] · Signal IA