L'article le plus signal du jour vient d'une étude comparative sur des modèles de 4M à 4B paramètres publiée par The Decoder. Le résultat est contre-intuitif : les petits modèles ne ratent pas les tâches rares parce qu'ils manquent de capacité brute, mais parce que les tâches fréquentes écrasent continuellement les gradients liés aux tâches rares pendant l'entraînement. La conséquence pratique est directe — avant d'augmenter la taille du modèle, augmenter la fréquence de la tâche cible dans le mix de données. C'est une leçon de data curation, pas de scaling.
Dans un registre différent, GraphKV (r/LocalLLaMA) propose une compression du KV cache via graph embedding avec des résultats mesurés : 7,76x sur GPT-2 (cosine similarity 0,999949) et 3,36x sur Qwen2.5-7B à 32k tokens (cosine 0,990316), en quantization int2/int4/NF4. Ces chiffres sont sérieux pour un projet open-source au stade expérimental. Mis en parallèle avec l'étude sur la fréquence des tâches, les deux articles pointent vers le même enjeu : optimiser l'utilisation des ressources computationnelles plutôt que les augmenter.
L'étude sur la tokenomique des systèmes agentiques (Hacker News) complète ce tableau en quantifiant où les tokens sont réellement consommés dans les workflows d'ingénierie logicielle autonome — un angle de mesure encore peu outillé. L'expérience de mech interp sur Qwen3.5-35B-A3B (Expert 114, couche 14) reste anecdotique à ce stade mais illustre l'intérêt croissant pour la décomposition interne des MoE, notamment la corrélation entre un expert routé et un registre d'auto-examen en première personne.
Une étude compare des modèles de 4M à 4B paramètres et révèle que les petits modèles échouent sur les tâches rares car les tâches fréquentes écrasent continuellement leurs apprentissages. Une solution pratique : augmenter la fréquence de la tâche cible dans les données d'entraînement plutôt que d'agrandir le modèle.
GraphKV, projet de compression de KV cache basé sur graph embedding. Compression 7.76x sur GPT-2 (cosine 0.999949), 3.36x sur Qwen2.5-7B 32k tokens (cosine 0.990316). Inspiré de TurboQuant, utilise int2/int4/NF4 quantization.
open-deepthink ajoute un mode de distillation de connaissance basé sur des réseaux de neurones qualitatifs (QNN). Des agents organisés en couches évoluent via descente miroir et mutation, générant des datasets JSON structurés contenant traces développementales, raisonnements et historique évolutif pour affiner des LLM locaux.
Expérience de mécanique d'interprétation sur Qwen3.5-35B-A3B : un expert routé (E114, couche 14) se corrèle avec un registre d'auto-examen en première personne lors de la génération. L'auteur documente les résultats avant release git, avec décomposition W/S/Q du routage MoE.
Étude quantifiant la distribution des tokens dans les systèmes d'IA agentiques pour l'ingénierie logicielle. Analyse où et comment les tokens sont consommés dans les workflows d'agents autonomes.