Retour au feed
arXiv cs.LG·

Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders

Signal
72
Hype
18
En 3 lignesDes chercheurs identifient l'instabilité des préférences dans les modèles de récompense via des variations d'entrée subtiles (paraphrases, injections de motifs, backdoors). Ils isolent les features instables avec des autoencodeurs creux (SAEs) et proposent deux stratégies d'atténuation : SAE Feature Steering et SAE Residual Correction, réduisant les assignations de préférences incorrectes sans réentraînement.
Lire la source
Ton avis ?
AlignementSécurité IAÉvaluations

Résumé généré par Claude — vérifié par l'humain