Retour au feed
arXiv cs.CL·

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Signal
72
Hype
18
En 3 lignesÉtude sur la « dérive d'alignement » : processus graduel où les sorties LLM deviennent moins contraintes par le message actuel de l'utilisateur et plus façonnées par l'historique d'interaction, tout en restant utiles. Framework mécaniste distinguant signaux A/B, boucles de rétroaction et régimes interactionnels pour contrôler cette dérive cumulative.
Lire la source
Ton avis ?
AlignementAgents IASécurité IA

Résumé généré par Claude — vérifié par l'humain