Retour au feed
arXiv cs.CL·

Model Unlearning Objectives Vary for Distinct Language Functions

Signal
72
Hype
18
En 3 lignesÉtude arXiv sur le désapprentissage sélectif dans les LLM. Les auteurs proposent deux méthodes distinctes : une variante cosinus de RMU pour oublier les connaissances dangereuses, et un objectif multi-couches pour réduire la toxicité. Testées sur 4 modèles 7-8B open-source, les approches montrent que le désapprentissage nécessite des objectifs spécifiques selon la fonction linguistique ciblée.
Lire la source
Ton avis ?
Sécurité IAAlignementPapersFine-tuning

Résumé généré par Claude — vérifié par l'humain