Retour au feed
Hugging Face Blog·

Zero-shot image-to-text generation with BLIP-2

Signal
75
Hype
25
En 3 lignesHugging Face présente BLIP-2, un modèle de génération d'image-to-text sans entraînement supplémentaire. Le modèle combine un encodeur visuel avec un LLM pour décrire des images en langage naturel sans fine-tuning.
Lire la source
Ton avis ?
VisionGénération de codeOpen source

Résumé généré par Claude — vérifié par l'humain