Édition du2026-06-07

Les capacités émergentes des LLM s'expliquent par la fréquence des tâches, pas par la taille — et ça change la stratégie d'entraînement

L'article le plus signal du jour vient d'une étude comparative sur des modèles de 4M à 4B paramètres publiée par The Decoder. Le résultat est contre-intuitif : les petits modèles ne ratent pas les tâches rares parce qu'ils manquent de capacité brute, mais parce que les tâches fréquentes écrasent continuellement les gradients liés aux tâches rares pendant l'entraînement. La conséquence pratique est directe — avant d'augmenter la taille du modèle, augmenter la fréquence de la tâche cible dans le mix de données. C'est une leçon de data curation, pas de scaling.

Dans un registre différent, GraphKV (r/LocalLLaMA) propose une compression du KV cache via graph embedding avec des résultats mesurés : 7,76x sur GPT-2 (cosine similarity 0,999949) et 3,36x sur Qwen2.5-7B à 32k tokens (cosine 0,990316), en quantization int2/int4/NF4. Ces chiffres sont sérieux pour un projet open-source au stade expérimental. Mis en parallèle avec l'étude sur la fréquence des tâches, les deux articles pointent vers le même enjeu : optimiser l'utilisation des ressources computationnelles plutôt que les augmenter.

L'étude sur la tokenomique des systèmes agentiques (Hacker News) complète ce tableau en quantifiant où les tokens sont réellement consommés dans les workflows d'ingénierie logicielle autonome — un angle de mesure encore peu outillé. L'expérience de mech interp sur Qwen3.5-35B-A3B (Expert 114, couche 14) reste anecdotique à ce stade mais illustre l'intérêt croissant pour la décomposition interne des MoE, notamment la corrélation entre un expert routé et un registre d'auto-examen en première personne.

Les 5 picks du jour
01
02
03
04
05