Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework
Signal
72
Hype
18
En 3 lignesÉtude sur la « dérive d'alignement » : processus graduel où les sorties LLM deviennent moins contraintes par le message actuel de l'utilisateur et plus façonnées par l'historique d'interaction, tout en restant utiles. Framework mécaniste distinguant signaux A/B, boucles de rétroaction et régimes interactionnels pour contrôler cette dérive cumulative.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain