Introducing ConTextual: How well can your Multimodal model jointly reason over text and image in text-rich scenes?
Signal
75
Hype
25
En 3 lignesHugging Face présente ConTextual, un benchmark pour évaluer la capacité des modèles multimodaux à raisonner conjointement sur texte et images dans des scènes riches en texte. Le benchmark mesure la compréhension fine des modèles face à du texte intégré dans les images.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain