arXiv cs.AI·19 mai 2026

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Signal

Hype

En 3 lignesÉtude de l'alignment drift : processus graduel où les sorties LLM deviennent moins contraintes par le message utilisateur actuel et plus façonnées par l'historique d'interaction, tout en restant cohérentes. Cadre mécaniste proposé distinguant signaux A/B, expliquant boucles de rétroaction et sélection de sous-motifs sur trois régimes interactionnels.

Lire la source

Ton avis ?

Alignement Sécurité IA Papers

Résumé généré par Claude — vérifié par l'humain

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Autres angles sur ce sujet