Édition du2026-06-10

Compression du contexte et évaluation du raisonnement : deux axes structurants de la recherche du 10 juin

Par l'équipe éditoriale

Les 5 picks du jour

ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics

ComBench est un benchmark de 100 problèmes de combinatoire niveau Olympiade pour évaluer le raisonnement mathématique des LLM. Il distingue problèmes d'analyse (preuves rigoureuses) et de construction (constructions explicites). Les meilleurs modèles atteignent 65,4% en moyenne et 75,3% en Best@4. Kimi-K2.6 surpasse GPT-4o sur les constructions mais le cède sur les preuves.

Benchmarks Raisonnement Évaluations

arXiv cs.CL·SIG 82

CodeAlchemy: Synthetic Code Rewriting at Scale

CodeAlchemy génère 500B+ tokens de données synthétiques via 5 stratégies (CodeEnhance, CodeQA, CodeDev, CodeDialogue, CodeTrace) à partir de code public dans 15 langues. CodeTrace instrumente 1.3M+ fichiers pour capturer flux de contrôle et connaissance de bibliothèques. Les modèles 3B surpassent des modèles 10x plus grands (Gemma-3 27B, Granite-4.0 32B) : 83.5% HumanEval, 63.2% MBPP.

Génération de code Benchmarks Fine-tuning

arXiv cs.LG·SIG 82

IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference

IntentKV est une technique de pruning du cache KV pour agents LLM multi-tours. Elle maintient une mémoire d'intention cross-turn et utilise une règle memory-attention pour scorer les tokens historiques. Sur Qwen2.5-14B avec budget 8k, elle réduit les pics de tokens de 92.3k à 20.5k (−77.8%) et les lectures KV de 411M à 31M (−92.6%) sans perte d'exactitude significative.

Agents IA Raisonnement Infrastructure

arXiv cs.CL·SIG 82

Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

Engram, un moteur mémoire open-source pour agents LLM, utilise un modèle bi-temporel avec graphe de connaissances pour dépasser la baseline full-context. Sur LongMemEval_S (500 questions), la configuration lean récupère ~9.6k tokens et atteint 83.6% vs 73.2% pour l'historique complet (+10.4 points, p<10^-6), avec 8x moins de tokens.

Agents IA Raisonnement Benchmarks

arXiv cs.CL·SIG 78

Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models

Prefilling-dLLM optimise l'inférence des modèles de langage par diffusion en partitionnant le contexte en chunks, cachant leurs représentations KV et sélectionnant les chunks pertinents avec sparsité intra-chunk. Atteint 9.1–28.0x speedup sur contextes 8K–32K sans réencodage complet du préfixe.

Raisonnement Benchmarks Infrastructure