arXiv cs.AI·19 mai 2026

Are Sparse Autoencoder Benchmarks Reliable?

Signal

Hype

En 3 lignesAudit critique de SAEBench, la suite d'évaluation standard pour les autoencodeurs creux (SAEs). Les métriques TPP et SCR échouent à plusieurs tests de fiabilité et ne doivent pas être utilisées. Les autres métriques montrent un bruit de reseed élevé et une discriminabilité faible. Seule sae-probes offre une fiabilité acceptable, mais peine à différencier les variantes d'architecture.

Lire la source

Ton avis ?

Évaluations Benchmarks Papers Sécurité IA Alignement

Résumé généré par Claude — vérifié par l'humain

Are Sparse Autoencoder Benchmarks Reliable?

Autres angles sur ce sujet