arXiv cs.AI·25 mai 2026

EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation

Signal

Hype

En 3 lignesEDGE-OPD améliore la distillation on-policy auto-supervisée (OPSD) en utilisant des rollouts guidés et un masque d'évidence pour transférer efficacement un contexte privilégié (persona, fait privé, solution détaillée) sans dégrader les capacités générales du modèle. Les expériences montrent que l'OPSD standard échoue sur les identités rares, tandis que EDGE-OPD réussit.

Lire la source

Ton avis ?

Reinforcement learning Fine-tuning Raisonnement

Résumé généré par Claude — vérifié par l'humain

EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation

Autres angles sur ce sujet