Retour au feed
Reddit r/MachineLearning·

Custom image encoder [P]

Signal
35
Hype
15
En 3 lignesDéveloppeur demande si construire un encodeur d'images personnalisé est préférable à CLIP/SigLIP/DINO pour la classification de frames vidéo. Pipeline : 15 frames/30s → embeddings → Transformer 1.5-9M params. Contraintes : vitesse (CLIP-S0 : 10 img/s sur 4 vCPUs) et déploiement CPU. Envisage encodeur custom sur dataset maison (millions d'images, 4-5 labels).
Lire la source
Ton avis ?
EmbeddingsVisionFine-tuning

Résumé généré par Claude — vérifié par l'humain