arXiv cs.CL·26 May 2026

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Signal

Hype

In three linesUnveil is a visual-textual embedding framework for multi-modal document retrieval. It integrates textual and visual features through knowledge distillation, transferring semantic capabilities from a visual-textual model to a purely visual model. Results: improved retrieval accuracy and efficiency without parsing.

Read source

Your take?

RAG Embeddings Vision Benchmarks

Summary generated by Claude — human-verified

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Other angles on this story