arXiv cs.CL·26 mai 2026

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Signal

Hype

En 3 lignesUnveil est un framework d'embedding visual-textuel pour la récupération de documents multi-modaux. Il intègre features textuelles et visuelles via distillation de connaissance, transférant les capacités sémantiques d'un modèle visual-textuel vers un modèle purement visuel. Résultats : amélioration de la précision et de l'efficacité de retrieval sans parsing.

Lire la source

Ton avis ?

RAG Embeddings Vision Benchmarks

Résumé généré par Claude — vérifié par l'humain

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Autres angles sur ce sujet