Retour au feed
arXiv cs.CL·

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Signal
72
Hype
25
En 3 lignesUnveil est un framework d'embedding visual-textuel pour la récupération de documents multi-modaux. Il intègre features textuelles et visuelles via distillation de connaissance, transférant les capacités sémantiques d'un modèle visual-textuel vers un modèle purement visuel. Résultats : amélioration de la précision et de l'efficacité de retrieval sans parsing.
Lire la source
Ton avis ?
RAGEmbeddingsVisionBenchmarks

Résumé généré par Claude — vérifié par l'humain