arXiv cs.CL·27 mai 2026

Model Unlearning Objectives Vary for Distinct Language Functions

Signal

Hype

En 3 lignesÉtude arXiv sur le désapprentissage sélectif dans les LLM. Les auteurs proposent deux méthodes distinctes : une variante cosinus de RMU pour oublier les connaissances dangereuses, et un objectif multi-couches pour réduire la toxicité. Testées sur 4 modèles 7-8B open-source, les approches montrent que le désapprentissage nécessite des objectifs spécifiques selon la fonction linguistique ciblée.

Lire la source

Ton avis ?

Sécurité IA Alignement Papers Fine-tuning

Résumé généré par Claude — vérifié par l'humain

Model Unlearning Objectives Vary for Distinct Language Functions

Autres angles sur ce sujet