LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding
LFRAG propose un système RAG multimodal basé sur la récupération au niveau des blocs plutôt que des pages. Un encodeur fusion sémantique-layout intègre contexte local et global. Sur le benchmark LFDocQA, LFRAG améliore la précision de 7,20% et réduit la consommation de tokens de 73,07%.