Retour au feed
arXiv cs.LG·

It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

Signal
72
Hype
28
En 3 lignesSELFCI est un framework de self-distillation complémentaire qui optimise deux divergences KL inverses indépendantes pour aligner les LLMs sur l'Intégrité Contextuelle (CI). Le système préserve les informations pertinentes pour la tâche tout en minimisant les divulgations inappropriées, sans supervision externe coûteuse, surpassant GRPO et autres baselines.
Lire la source
Ton avis ?
Reinforcement learningAlignementSécurité IAPapers

Résumé généré par Claude — vérifié par l'humain