RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting
Signal
78
Hype
15
En 3 lignesRAFT est une méthode de fine-tuning domaine en deux étapes qui réduit l'oubli catastrophique. Elle raffine les données via réécriture auto-conditionnée et fusion de réponses, puis applique une distillation on-policy où le modèle original fournit des cibles souples sur les trajectoires générées. Sur 5 domaines, RAFT améliore la précision domaine de 23,2% vs SFT standard et récupère 18,2% de dégradation sur MS-Bench.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain