Retour au feed
arXiv cs.AI·

Are Sparse Autoencoder Benchmarks Reliable?

Signal
75
Hype
15
En 3 lignesAudit critique de SAEBench, la suite d'évaluation standard pour les autoencodeurs creux (SAEs). Les métriques TPP et SCR échouent à plusieurs tests de fiabilité et ne doivent pas être utilisées. Les autres métriques montrent un bruit de reseed élevé et une discriminabilité faible. Seule sae-probes offre une fiabilité acceptable, mais peine à différencier les variantes d'architecture.
Lire la source
Ton avis ?
ÉvaluationsBenchmarksPapersSécurité IAAlignement

Résumé généré par Claude — vérifié par l'humain