The Decoder·7 juin 2026

Researchers pinpoint why larger language models pick up skills that small ones miss

Signal

Hype

En 3 lignesUne étude compare des modèles de 4M à 4B paramètres et révèle que les petits modèles échouent sur les tâches rares car les tâches fréquentes écrasent continuellement leurs apprentissages. Une solution pratique : augmenter la fréquence de la tâche cible dans les données d'entraînement plutôt que d'agrandir le modèle.

Lire la source

Ton avis ?

Benchmarks Raisonnement

Résumé généré par Claude — vérifié par l'humain

Researchers pinpoint why larger language models pick up skills that small ones miss

Autres angles sur ce sujet