AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment
Signal
72
Hype
18
En 3 lignesAMR-SD propose une auto-distillation asymétrique avec réflexion méta pour améliorer l'attribution de crédit au niveau des tokens dans l'entraînement par renforcement des LLM. La méthode compresse les signaux de diagnostic en indices socratiques auto-générés et utilise un gain d'information causale avec seuil ReLU asymétrique pour moduler les avantages par token, évitant l'effondrement en fin d'entraînement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain