arXiv cs.LG·19 mai 2026

Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders

Signal

Hype

En 3 lignesDes chercheurs identifient l'instabilité des préférences dans les modèles de récompense via des variations d'entrée subtiles (paraphrases, injections de motifs, backdoors). Ils isolent les features instables avec des autoencodeurs creux (SAEs) et proposent deux stratégies d'atténuation : SAE Feature Steering et SAE Residual Correction, réduisant les assignations de préférences incorrectes sans réentraînement.

Lire la source

Ton avis ?

Alignement Sécurité IA Évaluations

Résumé généré par Claude — vérifié par l'humain

Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders

Autres angles sur ce sujet