ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate
Signal
75
Hype
15
En 3 lignesARCA propose une nouvelle méthode d'attribution de crédit au niveau des tokens pour l'apprentissage par renforcement des LLM. Elle résout la dégénérescence des signaux intrinsèques (surprisal, entropy reduction, policy divergence) sous LoRA en mesurant directement les changements cachés de l'adaptateur via la norme L2 du résidu. Testée sur MATH/Qwen3-1.7B avec GRPO, ARCA évite la concentration pathologique des poids.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain