Researchers pinpoint why larger language models pick up skills that small ones miss
Signal
72
Hype
25
En 3 lignesUne étude compare des modèles de 4M à 4B paramètres et révèle que les petits modèles échouent sur les tâches rares car les tâches fréquentes écrasent continuellement leurs apprentissages. Une solution pratique : augmenter la fréquence de la tâche cible dans les données d'entraînement plutôt que d'agrandir le modèle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain