arXiv cs.AI·19 mai 2026

AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

Signal

Hype

En 3 lignesAMR-SD propose une auto-distillation asymétrique avec réflexion méta pour améliorer l'attribution de crédit au niveau des tokens dans l'entraînement par renforcement des LLM. La méthode compresse les signaux de diagnostic en indices socratiques auto-générés et utilise un gain d'information causale avec seuil ReLU asymétrique pour moduler les avantages par token, évitant l'effondrement en fin d'entraînement.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Alignement

Résumé généré par Claude — vérifié par l'humain

AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

Autres angles sur ce sujet