arXiv cs.AI·29 mai 2026

When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

Signal

Hype

En 3 lignesÉtude théorique sur l'entraînement de modèles fondamentaux sur données synthétiques générées par d'autres modèles. Les auteurs montrent que la curation humaine d'un modèle peut dégrader l'alignement d'autres modèles via des interactions croisées, contrairement aux cas isolés où elle améliore toujours l'alignement.

Lire la source

Ton avis ?

Alignement Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

Autres angles sur ce sujet