SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning
Signal
72
Hype
28
En 3 lignesSSL4RL utilise des tâches d'apprentissage auto-supervisé (rotation d'images, reconstruction de patches masqués) comme signaux de récompense pour l'entraînement par renforcement de modèles vision-langage. Le framework élimine le besoin de données de préférence humaine et améliore les performances sur des benchmarks de raisonnement vision-centric et vision-langage.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain