arXiv cs.CL·4 juin 2026

Fine-grained Fragment Retrieval in Multi-modal Long-form Dialogues

Signal

Hype

En 3 lignesNouvelle approche FFR pour récupérer des fragments cohérents multi-énoncés et multi-images dans les dialogues longs multimodaux. Deux modèles : F2RVLM (génération + RL avec récompenses multi-objectifs) pour fragments uniques, FFRS (indexation + retrieval deux étapes) pour corpus. Dataset MLDR créé, résultats supérieurs sur benchmarks.

Lire la source

Ton avis ?

RAG Vision Embeddings Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Fine-grained Fragment Retrieval in Multi-modal Long-form Dialogues

Autres angles sur ce sujet