Édition du2026-05-28

Poolside ouvre Laguna XS.2 en Apache 2.0 pendant que la recherche fondamentale attaque les deux goulots d'étranglement de l'inférence : KV cache et complexité d'échantillon.

Par l'équipe éditoriale

Poolside publie le rapport technique de Laguna M.1 (225.8B params, 23.4B activés) et Laguna XS.2 (33.4B total, 3B activés), deux MoE entraînés end-to-end pour le coding agentic. Les benchmarks couverts — SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro, Terminal-Bench 2.0 — sont exactement ceux qui comptent pour les équipes qui évaluent des agents de dev. XS.2 passe en Apache 2.0, ce qui le rend directement déployable sans friction légale. À 3B paramètres activés, il entre en concurrence directe avec les modèles légers spécialisés code déjà en production chez plusieurs éditeurs d'IDE.

Deux papiers infrastructure sortent le même jour et s'adressent à des problèmes orthogonaux mais également bloquants. HQMQ (Hurwitz Quaternion Multiplicative Quantization) compresse le KV cache sans calibration en traitant chaque chunk de 4 éléments comme un quaternion de Hurwitz : sur Llama-3-70B, 43 GB → 8.5 GB à qualité fp16, surpassant int4 naïf de 3 à 1900× selon les tâches. Testé sur Mistral-7B, Llama-3-8B, Qwen2.5/3-8B et gpt-oss-20b. De son côté, le papier sur la prédiction latente (data2vec, JEPA) prouve formellement que prédire ses propres représentations réduit la complexité d'échantillon de exponentielle en profondeur L à constante — résultat qui justifie théoriquement pourquoi les architectures JEPA convergent plus vite que les modèles autorégressifs sur données limitées.

L'étude sur les agents de recherche (arXiv:2605.27881) isole un biais méthodologique systématique dans la littérature : une grande partie des gains reportés sur Wikipedia 2018 s'explique par la couverture des données, pas par les différences algorithmiques. Les récompenses outcome-based surpassent les approches process-based. C'est un signal d'alerte direct pour quiconque compare des pipelines RAG+RL sur des benchmarks publics sans contrôler ce paramètre.

Les 5 picks du jour

arXiv cs.AI·SIG 82

Laguna M.1/XS.2 Technical Report

Laguna M.1 (225.8B paramètres, 23.4B activés) et Laguna XS.2 (33.4B total, 3B activés) sont deux modèles MoE entraînés end-to-end pour le coding agentic. Compétitifs sur SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro et Terminal-Bench 2.0. XS.2 disponible sous Apache 2.0.

Agents IA Génération de code Benchmarks

arXiv cs.LG·SIG 82

A Simple State Space Model Excels at Multivariate Time Series Classification

Étude systématique comparant les modèles d'espace d'état (SSM) pour la classification de séries temporelles. S4D surpasse les variantes Mamba en précision et efficacité. Les auteurs proposent MS4 et MS4N, versions légères de S4D avec projection linéaire et mélange de canaux. Évaluation sur 59 datasets (MONSTER, UEA) : MS4N égale des modèles 10× plus grands en paramètres.

Benchmarks Papers Raisonnement

arXiv cs.LG·SIG 82

Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression

HQMQ, méthode sans calibration pour compresser le cache KV des LLM, quantifie chaque chunk de 4 éléments comme quaternion Hurwitz. Testé sur Mistral-7B, Llama-3-8B, Qwen2.5/3-8B et gpt-oss-20b : atteint qualité fp16 à ~5 bits, compression jusqu'à 5.05× (Llama-3-70B : 43 GB → 8.5 GB), surpasse int4 naïf de 3–1900×.

Benchmarks Infrastructure Papers

arXiv cs.LG·SIG 82

Learn from your own latents and not from tokens: A sample-complexity theory

Article théorique sur l'efficacité échantillonnale des modèles prédisant leurs propres représentations latentes (data2vec, JEPA). Preuve que la prédiction latente réduit la complexité d'échantillon de exponentielle en L (profondeur) à constante, vs. prédiction de tokens. Validation sur grammaires probabilistes et réseaux de neurones.

Papers Raisonnement Évaluations

arXiv cs.CL·SIG 78

Retrieval, Reward, and Training Protocols: What Matters in Training Search Agents?

Étude empirique contrôlée sur l'entraînement d'agents de recherche LLM. Les auteurs isolent trois dimensions : (1) un problème de couverture de données dans Wikipedia 2018 qui explique plus de gains que les différences algorithmiques, (2) les récompenses outcome-based surpassent les approches process-based, (3) analyse de la diversité des données et du budget de recherche. Code disponible.

Agents IA RAG Reinforcement learning