Retour au feed
arXiv cs.CL·

Fine-grained Fragment Retrieval in Multi-modal Long-form Dialogues

Signal
72
Hype
18
En 3 lignesNouvelle approche FFR pour récupérer des fragments cohérents multi-énoncés et multi-images dans les dialogues longs multimodaux. Deux modèles : F2RVLM (génération + RL avec récompenses multi-objectifs) pour fragments uniques, FFRS (indexation + retrieval deux étapes) pour corpus. Dataset MLDR créé, résultats supérieurs sur benchmarks.
Lire la source
Ton avis ?
RAGVisionEmbeddingsReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain