Nvidia et Hugging Face publient Nemotron-Labs, une famille de modèles de diffusion qui parallélise la génération de tokens plutôt que de la dérouler de gauche à droite. L'argument central est la latence : en cassant la dépendance séquentielle du décodage autorégressif, l'approche vise un throughput qualifié de « speed-of-light » dans le titre. C'est la même semaine que la communauté club-rdna16 publie un repo de benchmarks reproductibles sur GPU AMD 16 GB (RX 6900 XT, RX 7800 XT) avec llama.cpp/ROCm, Qwen 27B et 35B-A3B, contexte 131k tokens et profils KV cache q8. Les deux signaux pointent dans la même direction : l'inférence locale à faible latence n'est plus réservée aux cartes NVIDIA haut de gamme, et les architectures non-autorégressives commencent à avoir des implémentations testables.
Dans le même registre d'optimisation mémoire, SM1 — une variante Mamba1 avec d_state=1 en PyTorch pur sur Blackwell (RTX 5060 Ti) — réduit la mémoire de scan de 16× par rapport à Mamba1 standard et maintient un état d'inférence de 14 KB pour un modèle 130M. La solution est exacte (forme fermée, pas une approximation) et entraînée sur 2,5 B tokens MIDI. Ce n'est pas un modèle de production, mais c'est une preuve que les SSM peuvent être reformulés avec deux opérations PyTorch natives sans passer par des kernels CUDA custom — ce qui change le coût d'entrée pour expérimenter ces architectures.
Côté données et évaluation : l'étude empirique sur le chunking RAG en production (Intercom, HubSpot, KPMG) montre que la qualité du corpus varie massivement selon la source — 31-32 % de chunks HIGH/MEDIUM chez Intercom et HubSpot, 8 % chez KPMG — et que pondérer par tier (HIGH ×1,20) réordonne effectivement le top-k. Le « yield score » proposé comme métrique pré-génération est une idée opérationnelle directement applicable. LQS v3.1 pousse la même logique au niveau des données d'entraînement : 19 dimensions, consensus de 7 oracles, certificats Ed25519 vérifiables hors-ligne, 263 datasets indexés publiquement. Les deux projets convergent vers le même constat : la qualité des données reste le levier le moins instrumenté de la chaîne IA, et des outils ouverts commencent à combler ce vide.
Nvidia et Hugging Face présentent Nemotron-Labs, des modèles de langage basés sur la diffusion pour accélérer la génération de texte. L'approche parallélise la génération de tokens, réduisant la latence par rapport aux méthodes autorégressives traditionnelles.
Repo GitHub pour tester des LLM locaux sur GPU AMD 16GB (RX 6900 XT, RX 7800 XT, etc.). Tests pratiques avec llama.cpp/ROCm : Qwen 27B et 35B-A3B, contexte jusqu'à 131k tokens, profils KV cache q8, mesures de throughput et retrieval. Partage de configurations reproducibles et appels à contributions.
Étude empirique de RAG sur 3 sites en production (Intercom, HubSpot, KPMG) avec chunking et embeddings tiérés. Résultats : 31% de chunks HIGH/MEDIUM chez Intercom, 32% HubSpot, 8% KPMG. Pondération par tier (HIGH ×1.20) réordonne le top-k. Métrique proposée : « yield score » prédit la qualité du corpus avant génération.
Variante Mamba1 appelée SM1 avec d_state=1 utilisant deux opérations PyTorch natives pour remplacer le selective scan. Solution exacte en forme fermée, pas une approximation. Réduit la mémoire de scan de 16x comparé à Mamba1 (d_state=16). État d'inférence de 14 KB pour modèle 130M, O(1) par token. Entraînement sur 163K fichiers MIDI (2.5B tokens).
LQS v3.1 est une méthodologie open-source pour évaluer la qualité des données d'entraînement IA. Elle utilise 19 dimensions (correction des labels, contamination, équité, etc.), un consensus multi-oracle (7 oracles) avec recalibrage par signaux réels, et des certificats Ed25519 vérifiables hors-ligne. Index public gratuit avec 263 datasets notés.