Édition du2026-05-30

Semaine local-first : voix, GPU hétérodoxe et TTS — l'inférence sans cloud continue de mûrir

Le signal dominant de la journée est l'accélération du stack local complet, sans serveur distant. Shadow AI (AGPL-3.0) assemble en un seul projet Windows ce que la plupart des démos locales laissent en pièces détachées : ASR multilingue, mémoire persistante, recherche web via SearXNG, intégrations Google optionnelles — le tout piloté par la clé Gemini gratuite de l'utilisateur. Ce n'est pas un proof-of-concept : c'est une surface produit utilisable, et le choix de Gemini comme backend suggère que les clés gratuites à quota généreux (Gemini 2.0 Flash, 1 500 req/jour) sont désormais le vrai levier d'adoption du local. Pendant ce temps, MOSS-TTS v1.5 (OpenMOSS-Team) est présenté comme supérieur à Fish Audio S2 Pro sur le clonage vocal avec licence commerciale — si la comparaison tient à l'écoute, c'est un remplacement direct pour les pipelines TTS propriétaires.

Côté infrastructure, le projet Blackwell/R730 est anecdotique en surface mais instructif sur le fond : faire tourner une RTX Pro 6000 (96 Go VRAM, architecture Blackwell) dans un Dell PowerEdge R730 de 2016 via des contournements PCIe et firmware permet d'atteindre 650k tokens de contexte sur du matériel amorti. Le coût d'opportunité d'un R730 d'occasion est sans commune mesure avec un serveur HGX neuf. Ce type de hack de densité mémoire à bas coût va se multiplier à mesure que les modèles longs-contexte deviennent la norme opérationnelle.

VT Code (Rust, open-source) et la lib de neurones impulsionnels cache-CPU restent des signaux faibles : le premier est un énième agent de codage terminal, mais l'implémentation Rust indique une attention sérieuse à la latence et à la portabilité ; le second, benchmarké contre PyTorch sur Wikipedia et développé avec Gemini Flash 3.5, illustre comment les LLM sont maintenant utilisés pour écrire du code de bas niveau spécialisé — un usage encore peu documenté mais en croissance.

Les 5 picks du jour
01
02
03
04
05
Semaine local-first : voix, GPU hétérodoxe et TTS — l'inférence sans cloud continue de mûrir · Signal IA