Édition du2026-05-23

Diffusion LLM, AMD 16 GB et qualité de données : la stack locale se consolide par le bas

Nvidia et Hugging Face publient Nemotron-Labs, une famille de modèles de diffusion qui parallélise la génération de tokens plutôt que de la dérouler de gauche à droite. L'argument central est la latence : en cassant la dépendance séquentielle du décodage autorégressif, l'approche vise un throughput qualifié de « speed-of-light » dans le titre. C'est la même semaine que la communauté club-rdna16 publie un repo de benchmarks reproductibles sur GPU AMD 16 GB (RX 6900 XT, RX 7800 XT) avec llama.cpp/ROCm, Qwen 27B et 35B-A3B, contexte 131k tokens et profils KV cache q8. Les deux signaux pointent dans la même direction : l'inférence locale à faible latence n'est plus réservée aux cartes NVIDIA haut de gamme, et les architectures non-autorégressives commencent à avoir des implémentations testables.

Dans le même registre d'optimisation mémoire, SM1 — une variante Mamba1 avec d_state=1 en PyTorch pur sur Blackwell (RTX 5060 Ti) — réduit la mémoire de scan de 16× par rapport à Mamba1 standard et maintient un état d'inférence de 14 KB pour un modèle 130M. La solution est exacte (forme fermée, pas une approximation) et entraînée sur 2,5 B tokens MIDI. Ce n'est pas un modèle de production, mais c'est une preuve que les SSM peuvent être reformulés avec deux opérations PyTorch natives sans passer par des kernels CUDA custom — ce qui change le coût d'entrée pour expérimenter ces architectures.

Côté données et évaluation : l'étude empirique sur le chunking RAG en production (Intercom, HubSpot, KPMG) montre que la qualité du corpus varie massivement selon la source — 31-32 % de chunks HIGH/MEDIUM chez Intercom et HubSpot, 8 % chez KPMG — et que pondérer par tier (HIGH ×1,20) réordonne effectivement le top-k. Le « yield score » proposé comme métrique pré-génération est une idée opérationnelle directement applicable. LQS v3.1 pousse la même logique au niveau des données d'entraînement : 19 dimensions, consensus de 7 oracles, certificats Ed25519 vérifiables hors-ligne, 263 datasets indexés publiquement. Les deux projets convergent vers le même constat : la qualité des données reste le levier le moins instrumenté de la chaîne IA, et des outils ouverts commencent à combler ce vide.

Les 5 picks du jour
01
02
03
04
05