arXiv cs.CL·21 mai 2026

Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs

Signal

Hype

En 3 lignesÉtude sur le conflit entre suivi d'instructions et complétions de motifs dans 13 LLMs. Quand une instruction utilisateur entre en conflit avec N tours d'assistant montrant un motif opposé, les taux de suivi d'instructions varient de 1% à 99%. La transition est universelle mais dépendante du modèle. La diversité des outputs et l'alignement avec les valeurs entraînées modulent la robustesse.

Lire la source

Ton avis ?

Raisonnement Alignement Évaluations Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs

Autres angles sur ce sujet