arXiv cs.CL·19 mai 2026

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Signal

Hype

En 3 lignesÉtude sur la « dérive d'alignement » : processus graduel où les sorties LLM deviennent moins contraintes par le message actuel de l'utilisateur et plus façonnées par l'historique d'interaction, tout en restant utiles. Framework mécaniste distinguant signaux A/B, boucles de rétroaction et régimes interactionnels pour contrôler cette dérive cumulative.

Lire la source

Ton avis ?

Alignement Agents IA Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Autres angles sur ce sujet