Retour au feed
arXiv cs.LG·

MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability

Signal
78
Hype
15
En 3 lignesMechRL utilise un agent RL (PPO) opérant sur 144 têtes d'attention de GPT-2 small pour découvrir automatiquement les circuits mécanistiques. Entraîné sur induction et IOI, l'agent identifie les têtes causalement pertinentes via ablation zéro et récompense contrastive, généralisant à docstring completion (96% de l'oracle en best-of-five).
Lire la source
Ton avis ?
Reinforcement learningÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain