Retour au feed
arXiv cs.CL·

AI Alignment Breaks at the Edge

Signal
72
Hype
25
En 3 lignesÉtude arXiv montrant que l'alignement IA échoue sur les cas limites : conflits de valeurs, désaccords multi-parties, ambiguïté épistémique. Les récompenses scalaires et évaluations moyennes masquent ces défaillances. Les auteurs proposent « Edge alignment » : détection, évaluation et gouvernance pour surfacer ces cas critiques. Test sur 91 cas limites et 4 modèles contemporains.
Lire la source
Ton avis ?
AlignementSécurité IAÉvaluations

Résumé généré par Claude — vérifié par l'humain