Retour au feed
arXiv cs.LG·

RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting

Signal
78
Hype
15
En 3 lignesRAFT est une méthode de fine-tuning domaine en deux étapes qui réduit l'oubli catastrophique. Elle raffine les données via réécriture auto-conditionnée et fusion de réponses, puis applique une distillation on-policy où le modèle original fournit des cibles souples sur les trajectoires générées. Sur 5 domaines, RAFT améliore la précision domaine de 23,2% vs SFT standard et récupère 18,2% de dégradation sur MS-Bench.
Lire la source
Ton avis ?
Fine-tuningReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain