Édition du2026-06-10

Compression du contexte et évaluation du raisonnement : deux axes structurants de la recherche du 10 juin

Trois des cinq articles du jour attaquent le même problème par des angles différents : réduire le contexte actif sans dégrader la précision. IntentKV compresse le cache KV d'agents multi-tours de 92.3k à 20.5k tokens (−77.8%) sur Qwen2.5-14B en scorant les tokens historiques via une mémoire d'intention cross-turn. Engram va plus loin sur le plan qualitatif : en récupérant ~9.6k tokens via un graphe de connaissances bi-temporel, il atteint 83.6% sur LongMemEval_S contre 73.2% pour l'historique complet — 8x moins de tokens, +10.4 points d'exactitude. Prefilling-dLLM applique la même logique aux modèles de diffusion textuelle, avec un speedup de 9.1 à 28x sur des contextes 8K–32K. Le signal convergent : le contexte exhaustif est une heuristique paresseuse, pas un optimum.

Sur le front évaluation, ComBench (100 problèmes de combinatoire niveau Olympiade) révèle une dissociation nette entre capacité de preuve et capacité de construction chez les LLM. Kimi-K2.6 domine sur les constructions explicites, GPT-4o sur les preuves formelles ; le meilleur score moyen plafonne à 65.4% (75.3% en Best@4). Ce type de benchmark à double axe est plus informatif que les scores agrégés habituels pour diagnostiquer où un modèle échoue structurellement.

CodeAlchemy mérite une attention séparée : 500B+ tokens synthétiques générés via cinq stratégies de réécriture (dont CodeTrace, qui instrumente 1.3M fichiers pour capturer le flux de contrôle réel), permettent à un modèle 3B de dépasser Gemma-3 27B et Granite-4.0 32B sur HumanEval (83.5%) et MBPP (63.2%). C'est une démonstration directe que la qualité et la diversité des données synthétiques écrasent la taille du modèle sur les tâches de code — et que les pipelines de génération de données deviennent un actif compétitif aussi important que l'architecture.

Les 5 picks du jour
01
02
03
04
05