Édition du2026-05-23

Diffusion LLM, AMD 16 GB et qualité de données : la stack locale se consolide par le bas

Par l'équipe éditoriale

Nvidia et Hugging Face publient Nemotron-Labs, une famille de modèles de diffusion qui parallélise la génération de tokens plutôt que de la dérouler de gauche à droite. L'argument central est la latence : en cassant la dépendance séquentielle du décodage autorégressif, l'approche vise un throughput qualifié de « speed-of-light » dans le titre. C'est la même semaine que la communauté club-rdna16 publie un repo de benchmarks reproductibles sur GPU AMD 16 GB (RX 6900 XT, RX 7800 XT) avec llama.cpp/ROCm, Qwen 27B et 35B-A3B, contexte 131k tokens et profils KV cache q8. Les deux signaux pointent dans la même direction : l'inférence locale à faible latence n'est plus réservée aux cartes NVIDIA haut de gamme, et les architectures non-autorégressives commencent à avoir des implémentations testables.

Dans le même registre d'optimisation mémoire, SM1 — une variante Mamba1 avec d_state=1 en PyTorch pur sur Blackwell (RTX 5060 Ti) — réduit la mémoire de scan de 16× par rapport à Mamba1 standard et maintient un état d'inférence de 14 KB pour un modèle 130M. La solution est exacte (forme fermée, pas une approximation) et entraînée sur 2,5 B tokens MIDI. Ce n'est pas un modèle de production, mais c'est une preuve que les SSM peuvent être reformulés avec deux opérations PyTorch natives sans passer par des kernels CUDA custom — ce qui change le coût d'entrée pour expérimenter ces architectures.

Côté données et évaluation : l'étude empirique sur le chunking RAG en production (Intercom, HubSpot, KPMG) montre que la qualité du corpus varie massivement selon la source — 31-32 % de chunks HIGH/MEDIUM chez Intercom et HubSpot, 8 % chez KPMG — et que pondérer par tier (HIGH ×1,20) réordonne effectivement le top-k. Le « yield score » proposé comme métrique pré-génération est une idée opérationnelle directement applicable. LQS v3.1 pousse la même logique au niveau des données d'entraînement : 19 dimensions, consensus de 7 oracles, certificats Ed25519 vérifiables hors-ligne, 263 datasets indexés publiquement. Les deux projets convergent vers le même constat : la qualité des données reste le levier le moins instrumenté de la chaîne IA, et des outils ouverts commencent à combler ce vide.

Les 5 picks du jour

Hugging Face Blog·SIG 75

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

Nvidia et Hugging Face présentent Nemotron-Labs, des modèles de langage basés sur la diffusion pour accélérer la génération de texte. L'approche parallélise la génération de tokens, réduisant la latence par rapport aux méthodes autorégressives traditionnelles.

Génération de code Benchmarks Open source

Reddit r/LocalLLaMA·SIG 72

club-rdna16: practical 16GB AMD/Radeon local LLM testing repo

Repo GitHub pour tester des LLM locaux sur GPU AMD 16GB (RX 6900 XT, RX 7800 XT, etc.). Tests pratiques avec llama.cpp/ROCm : Qwen 27B et 35B-A3B, contexte jusqu'à 131k tokens, profils KV cache q8, mesures de throughput et retrieval. Partage de configurations reproducibles et appels à contributions.

Open source Génération de code Benchmarks

Reddit r/MachineLearning·SIG 72

Tested chunking + embeddings data from 3 production websites. [P]

Étude empirique de RAG sur 3 sites en production (Intercom, HubSpot, KPMG) avec chunking et embeddings tiérés. Résultats : 31% de chunks HIGH/MEDIUM chez Intercom, 32% HubSpot, 8% KPMG. Pondération par tier (HIGH ×1.20) réordonne le top-k. Métrique proposée : « yield score » prédit la qualité du corpus avant génération.

RAG Embeddings Évaluations

Reddit r/MachineLearning·SIG 72

I built a Mamba1 variant I call SM1 with d_state=1 that runs on Blackwell in pure PyTorch [P]

Variante Mamba1 appelée SM1 avec d_state=1 utilisant deux opérations PyTorch natives pour remplacer le selective scan. Solution exacte en forme fermée, pas une approximation. Réduit la mémoire de scan de 16x comparé à Mamba1 (d_state=16). État d'inférence de 14 KB pour modèle 130M, O(1) par token. Entraînement sur 163K fichiers MIDI (2.5B tokens).

Open source Génération de code Raisonnement

Reddit r/MachineLearning·SIG 72

LQS v3.1 — an open methodology for rating AI training data (multi-oracle consensus + signed certificates) [P]

LQS v3.1 est une méthodologie open-source pour évaluer la qualité des données d'entraînement IA. Elle utilise 19 dimensions (correction des labels, contamination, équité, etc.), un consensus multi-oracle (7 oracles) avec recalibrage par signaux réels, et des certificats Ed25519 vérifiables hors-ligne. Index public gratuit avec 263 datasets notés.

Évaluations Open source Sécurité IA