arXiv cs.AI·25 mai 2026

LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding

Signal

Hype

En 3 lignesLFRAG propose un système RAG multimodal basé sur la récupération au niveau des blocs plutôt que des pages. Un encodeur fusion sémantique-layout intègre contexte local et global. Sur le benchmark LFDocQA, LFRAG améliore la précision de 7,20% et réduit la consommation de tokens de 73,07%.

Lire la source

Ton avis ?

RAG Vision Benchmarks

Résumé généré par Claude — vérifié par l'humain

LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding

Autres angles sur ce sujet