Retour au feed
arXiv cs.AI·

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Signal
72
Hype
18
En 3 lignesÉtude de l'alignment drift : processus graduel où les sorties LLM deviennent moins contraintes par le message utilisateur actuel et plus façonnées par l'historique d'interaction, tout en restant cohérentes. Cadre mécaniste proposé distinguant signaux A/B, expliquant boucles de rétroaction et sélection de sous-motifs sur trois régimes interactionnels.
Lire la source
Ton avis ?
AlignementSécurité IAPapers

Résumé généré par Claude — vérifié par l'humain