arXiv cs.LG·29 mai 2026

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Signal

Hype

En 3 lignesÉtude comparative RL vs SFT sur Qwen2.5-3B-Instruct : le renforcement par RL préserve mieux les circuits internes du modèle de base que l'ajustement supervisé (SFT), qui adapte plus vite mais détruit davantage les capacités antérieures. Métrique proposée : vulnérabilité différentielle des circuits au niveau des têtes d'attention.

Lire la source

Ton avis ?

Reinforcement learning Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Autres angles sur ce sujet