Retour au feed
arXiv cs.CL·

Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models

Signal
72
Hype
28
En 3 lignesFramework de fine-tuning multilingue pour MLLMs combinant génération synthétique OCR-traduction, SFT avec LoRA et chain-of-thought visuel structuré. Améliore significativement l'extraction de texte petit, flou, occludé sur reçus, menus, documents en conditions visuelles dégradées. Surpasse GPT-5 et Gemini sur OCR et hallucinations.
Lire la source
Ton avis ?
VisionRaisonnementFine-tuningPrompt engineeringLlama

Résumé généré par Claude — vérifié par l'humain