Trois des cinq articles du jour attaquent le même problème par des angles différents : réduire le contexte actif sans dégrader la précision. IntentKV compresse le cache KV d'agents multi-tours de 92.3k à 20.5k tokens (−77.8%) sur Qwen2.5-14B en scorant les tokens historiques via une mémoire d'intention cross-turn. Engram va plus loin sur le plan qualitatif : en récupérant ~9.6k tokens via un graphe de connaissances bi-temporel, il atteint 83.6% sur LongMemEval_S contre 73.2% pour l'historique complet — 8x moins de tokens, +10.4 points d'exactitude. Prefilling-dLLM applique la même logique aux modèles de diffusion textuelle, avec un speedup de 9.1 à 28x sur des contextes 8K–32K. Le signal convergent : le contexte exhaustif est une heuristique paresseuse, pas un optimum.
Sur le front évaluation, ComBench (100 problèmes de combinatoire niveau Olympiade) révèle une dissociation nette entre capacité de preuve et capacité de construction chez les LLM. Kimi-K2.6 domine sur les constructions explicites, GPT-4o sur les preuves formelles ; le meilleur score moyen plafonne à 65.4% (75.3% en Best@4). Ce type de benchmark à double axe est plus informatif que les scores agrégés habituels pour diagnostiquer où un modèle échoue structurellement.
CodeAlchemy mérite une attention séparée : 500B+ tokens synthétiques générés via cinq stratégies de réécriture (dont CodeTrace, qui instrumente 1.3M fichiers pour capturer le flux de contrôle réel), permettent à un modèle 3B de dépasser Gemma-3 27B et Granite-4.0 32B sur HumanEval (83.5%) et MBPP (63.2%). C'est une démonstration directe que la qualité et la diversité des données synthétiques écrasent la taille du modèle sur les tâches de code — et que les pipelines de génération de données deviennent un actif compétitif aussi important que l'architecture.
ComBench est un benchmark de 100 problèmes de combinatoire niveau Olympiade pour évaluer le raisonnement mathématique des LLM. Il distingue problèmes d'analyse (preuves rigoureuses) et de construction (constructions explicites). Les meilleurs modèles atteignent 65,4% en moyenne et 75,3% en Best@4. Kimi-K2.6 surpasse GPT-4o sur les constructions mais le cède sur les preuves.
CodeAlchemy génère 500B+ tokens de données synthétiques via 5 stratégies (CodeEnhance, CodeQA, CodeDev, CodeDialogue, CodeTrace) à partir de code public dans 15 langues. CodeTrace instrumente 1.3M+ fichiers pour capturer flux de contrôle et connaissance de bibliothèques. Les modèles 3B surpassent des modèles 10x plus grands (Gemma-3 27B, Granite-4.0 32B) : 83.5% HumanEval, 63.2% MBPP.
IntentKV est une technique de pruning du cache KV pour agents LLM multi-tours. Elle maintient une mémoire d'intention cross-turn et utilise une règle memory-attention pour scorer les tokens historiques. Sur Qwen2.5-14B avec budget 8k, elle réduit les pics de tokens de 92.3k à 20.5k (−77.8%) et les lectures KV de 411M à 31M (−92.6%) sans perte d'exactitude significative.
Engram, un moteur mémoire open-source pour agents LLM, utilise un modèle bi-temporel avec graphe de connaissances pour dépasser la baseline full-context. Sur LongMemEval_S (500 questions), la configuration lean récupère ~9.6k tokens et atteint 83.6% vs 73.2% pour l'historique complet (+10.4 points, p<10^-6), avec 8x moins de tokens.
Prefilling-dLLM optimise l'inférence des modèles de langage par diffusion en partitionnant le contexte en chunks, cachant leurs représentations KV et sélectionnant les chunks pertinents avec sparsité intra-chunk. Atteint 9.1–28.0x speedup sur contextes 8K–32K sans réencodage complet du préfixe.