How do ML practitioners select hyperparameters, architectures, etc for self-supervised representation learning when the loss is non-monotonic? [D]
Signal
35
Hype
15
En 3 lignesUn chercheur interroge les pratiques de sélection d'hyperparamètres pour l'apprentissage auto-supervisé non-contrastif (BYOL, JEPA, data2vec). Il soulève le problème que les pertes non-monotones rendent difficile l'évaluation réelle de ce qui est appris, et que des critères comme RankMe (basés sur le rang effectif des embeddings) deviennent inefficaces une fois intégrés à la fonction de perte.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain