Retour au feed
arXiv cs.CL·

Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs

Signal
78
Hype
15
En 3 lignesÉtude sur le conflit entre suivi d'instructions et complétions de motifs dans 13 LLMs. Quand une instruction utilisateur entre en conflit avec N tours d'assistant montrant un motif opposé, les taux de suivi d'instructions varient de 1% à 99%. La transition est universelle mais dépendante du modèle. La diversité des outputs et l'alignement avec les valeurs entraînées modulent la robustesse.
Lire la source
Ton avis ?
RaisonnementAlignementÉvaluationsSécurité IA

Résumé généré par Claude — vérifié par l'humain