arXiv cs.LG·27 mai 2026

MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability

Signal

Hype

En 3 lignesMechRL utilise un agent RL (PPO) opérant sur 144 têtes d'attention de GPT-2 small pour découvrir automatiquement les circuits mécanistiques. Entraîné sur induction et IOI, l'agent identifie les têtes causalement pertinentes via ablation zéro et récompense contrastive, généralisant à docstring completion (96% de l'oracle en best-of-five).

Lire la source

Ton avis ?

Reinforcement learning Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability

Autres angles sur ce sujet