The Long-Term Effects of Data Selection in LLM Fine-Tuning
Signal
78
Hype
15
En 3 lignesÉtude sur les effets long terme de la sélection de données lors du fine-tuning d'LLM sur plusieurs étapes. Les auteurs montrent que les stratégies optimales à court terme (loss-based, gradient-based, diversity-based) peuvent ralentir l'apprentissage futur et augmenter l'oubli catastrophique. Ils proposent LHAS (Long-Horizon Aware Selection) pour évaluer la sélection comme intervention d'entraînement globale.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain