Poolside publie le rapport technique de Laguna M.1 (225.8B params, 23.4B activés) et Laguna XS.2 (33.4B total, 3B activés), deux MoE entraînés end-to-end pour le coding agentic. Les benchmarks couverts — SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro, Terminal-Bench 2.0 — sont exactement ceux qui comptent pour les équipes qui évaluent des agents de dev. XS.2 passe en Apache 2.0, ce qui le rend directement déployable sans friction légale. À 3B paramètres activés, il entre en concurrence directe avec les modèles légers spécialisés code déjà en production chez plusieurs éditeurs d'IDE.
Deux papiers infrastructure sortent le même jour et s'adressent à des problèmes orthogonaux mais également bloquants. HQMQ (Hurwitz Quaternion Multiplicative Quantization) compresse le KV cache sans calibration en traitant chaque chunk de 4 éléments comme un quaternion de Hurwitz : sur Llama-3-70B, 43 GB → 8.5 GB à qualité fp16, surpassant int4 naïf de 3 à 1900× selon les tâches. Testé sur Mistral-7B, Llama-3-8B, Qwen2.5/3-8B et gpt-oss-20b. De son côté, le papier sur la prédiction latente (data2vec, JEPA) prouve formellement que prédire ses propres représentations réduit la complexité d'échantillon de exponentielle en profondeur L à constante — résultat qui justifie théoriquement pourquoi les architectures JEPA convergent plus vite que les modèles autorégressifs sur données limitées.
L'étude sur les agents de recherche (arXiv:2605.27881) isole un biais méthodologique systématique dans la littérature : une grande partie des gains reportés sur Wikipedia 2018 s'explique par la couverture des données, pas par les différences algorithmiques. Les récompenses outcome-based surpassent les approches process-based. C'est un signal d'alerte direct pour quiconque compare des pipelines RAG+RL sur des benchmarks publics sans contrôler ce paramètre.
Laguna M.1 (225.8B paramètres, 23.4B activés) et Laguna XS.2 (33.4B total, 3B activés) sont deux modèles MoE entraînés end-to-end pour le coding agentic. Compétitifs sur SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro et Terminal-Bench 2.0. XS.2 disponible sous Apache 2.0.
Étude systématique comparant les modèles d'espace d'état (SSM) pour la classification de séries temporelles. S4D surpasse les variantes Mamba en précision et efficacité. Les auteurs proposent MS4 et MS4N, versions légères de S4D avec projection linéaire et mélange de canaux. Évaluation sur 59 datasets (MONSTER, UEA) : MS4N égale des modèles 10× plus grands en paramètres.
HQMQ, méthode sans calibration pour compresser le cache KV des LLM, quantifie chaque chunk de 4 éléments comme quaternion Hurwitz. Testé sur Mistral-7B, Llama-3-8B, Qwen2.5/3-8B et gpt-oss-20b : atteint qualité fp16 à ~5 bits, compression jusqu'à 5.05× (Llama-3-70B : 43 GB → 8.5 GB), surpasse int4 naïf de 3–1900×.
Article théorique sur l'efficacité échantillonnale des modèles prédisant leurs propres représentations latentes (data2vec, JEPA). Preuve que la prédiction latente réduit la complexité d'échantillon de exponentielle en L (profondeur) à constante, vs. prédiction de tokens. Validation sur grammaires probabilistes et réseaux de neurones.
Étude empirique contrôlée sur l'entraînement d'agents de recherche LLM. Les auteurs isolent trois dimensions : (1) un problème de couverture de données dans Wikipedia 2018 qui explique plus de gains que les différences algorithmiques, (2) les récompenses outcome-based surpassent les approches process-based, (3) analyse de la diversité des données et du budget de recherche. Code disponible.