Retour au feed
arXiv cs.AI·

Multimodal Cultural Heritage Knowledge Graph Extension with Language and Vision Models

Signal
72
Hype
18
En 3 lignesNouvelle approche pour étendre les graphes de connaissances (KG) du patrimoine culturel français. Les auteurs introduisent WJoconde, un KG multimodal intégrant texte et images, avec trois variantes et un benchmark pour la complétion de KG. Ils proposent un framework combinant LLM et Vision-Language Models pour extraire et valider automatiquement les données, améliorant la fiabilité du KG.
Lire la source
Ton avis ?
VisionRAGBenchmarksOpen source

Résumé généré par Claude — vérifié par l'humain