Retour au feed
arXiv cs.AI·

When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

Signal
72
Hype
15
En 3 lignesÉtude théorique sur l'entraînement de modèles fondamentaux sur données synthétiques générées par d'autres modèles. Les auteurs montrent que la curation humaine d'un modèle peut dégrader l'alignement d'autres modèles via des interactions croisées, contrairement aux cas isolés où elle améliore toujours l'alignement.
Lire la source
Ton avis ?
AlignementReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain