arXiv cs.LG·21 mai 2026

It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

Signal

Hype

En 3 lignesSELFCI est un framework de self-distillation complémentaire qui optimise deux divergences KL inverses indépendantes pour aligner les LLMs sur l'Intégrité Contextuelle (CI). Le système préserve les informations pertinentes pour la tâche tout en minimisant les divulgations inappropriées, sans supervision externe coûteuse, surpassant GRPO et autres baselines.

Lire la source

Ton avis ?

Reinforcement learning Alignement Sécurité IA Papers

Résumé généré par Claude — vérifié par l'humain

It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

Autres angles sur ce sujet