Infrastructure — actualité IA

The Agent Stack

Vercel présente « The Agent Stack », une pile complète pour construire des agents IA en production. Elle intègre AI SDK (interface unifiée multi-modèles), AI Gateway (routage et facturation centralisée) et permet d'appeler Claude, GPT et autres sans vendor lock-in.

Agents IA Claude GPT

SIG

75

HYP

00

arXiv cs.CL·18 juin

Dual Dimensionality for Local and Global Attention

Les chercheurs proposent Distance-Adaptive Representation (DAR) : réduire la dimensionnalité des clés/valeurs au-delà d'une fenêtre locale dans les Transformers décodeur-seul. Les tokens proches nécessitent des représentations complètes pour prédire le token suivant, tandis que les tokens distants peuvent utiliser 1/4 de la dimensionnalité originale sans dégradation. Testé sur modèles 70M-410M et fine-tuning 1B.

Raisonnement Infrastructure Benchmarks

SIG

78

HYP

00

arXiv cs.LG·18 juin

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

Nouvel ordonnanceur pour l'inférence LLM qui remplace la prédiction de longueur par des signaux statistiques légers et l'ajustement dynamique de priorités. Réduit P99 TTLT de 35-50% vs SRPT avec connaissance parfaite de longueur, et TTFT de 34-47% sur traces production et open-source.

Benchmarks Infrastructure Raisonnement

SIG

78

HYP

00

arXiv cs.AI·18 juin

Towards an Agent-First Web: Redesigning the Web for AI Agents

Papier proposant une refonte du web pour intégrer les agents IA comme citoyens de première classe. Trois couches : accès (headers HTTP, contenu dual human/agent), économie (modèle token-based, intent-based tiers), contenu (ATML, chaîne cryptographique de provenance contre la récursion épistémique). Dix principes de design pour un internet agent-first.

Agents IA Infrastructure Régulation

SIG

72

HYP

00

Hacker News (AI)·18 juin

[x86] AI Compute Extensions (ACE) Specification

Intel publie la spécification x86 AI Compute Extensions (ACE), une extension d'instruction pour accélérer les workloads IA sur processeurs x86. Détails techniques et implémentation disponibles dans la documentation officielle.

Infrastructure Benchmarks

SIG

65

HYP

00

Reddit r/LocalLLaMA·17 juin

llama.cpp now supports model management (downloading etc) via API

llama.cpp intègre la gestion de modèles via API (PR #23976). Téléchargement et chargement/déchargement à la demande depuis un répertoire. Interface utilisateur prévue. Déploiement et gestion du cycle de vie complets via API seule.

Llama Open source Infrastructure

SIG

72

HYP

00

Reddit r/LocalLLaMA·17 juin

I released Inflect-Nano, an ultra-extreme tiny 4.63m parameter TTS model.

Inflect-Nano-v1, modèle TTS de 4.63M paramètres, est le 2e plus petit modèle de synthèse vocale public. Composé d'un modèle acoustique (3.46M) et d'un vocoder (1.17M), il génère de l'audio 24 kHz en anglais. ~17x plus petit que Kokoro, ~108x plus petit que Chatterbox. Exécutable localement en PyTorch, adapté aux appareils embarqués et assistants vocaux hors ligne.

Voix Open source Outils

SIG

72

HYP

00

Reddit r/LocalLLaMA·17 juin

llama.cpp - how to free up even more space on your GPU

llama.cpp optimise la gestion mémoire GPU. Les paramètres clés : --no-mmproj-offload libère 1GB pour modèles vision, --cache-type-k/v réduit KV cache de 50-75%, --spec-draft-n-max=2 optimise speculative decoding. Flash attention activé par défaut. Testé sur Qwen 3.6-27B avec contexte 150k sur RTX 3090.

Llama Open source Infrastructure

SIG

65

HYP

00

Reddit r/LocalLLaMA·17 juin

My GLM-5.2-FP8 HGX-H200 SGLang docker deploy config

Configuration Docker pour déployer GLM-5.2-FP8 sur HGX-H200 avec SGLang. Atteint 70 tokens/s et 262k contexte en désactivant DP et moe-a2a-backend deepep, avec mem-fraction-static à 0.83. Les recettes vLLM officielles incompatibles avec H200.

Qwen Génération de code Infrastructure

SIG

45

HYP

00

Reddit r/LocalLLaMA·17 juin

Gemma 4 E2B running in-browser at 255 tok/s using WebGPU kernels written by Fable 5

Gemma 4 E2B tourne en navigateur à 255 tokens/sec via kernels WebGPU optimisés par Fable 5. Demo et kernels disponibles sur Hugging Face.

Gemini Génération de code Open source

SIG

75

HYP

00

Vercel AI Blog·17 juin

Vercel Ship 2026 recap

Vercel présente son infrastructure agent-first lors de Ship 2026 à Londres. Trois composants clés : Agent Stack (primitives pour agents), Vercel Connect (accès sécurisé aux outils externes sans tokens persistants), et eve (framework open-source pour agents en production avec exécution durable, compute sandboxé, approbations et évals).

Agents IA Infrastructure Outils

SIG

75

HYP

00

Reddit r/LocalLLaMA·17 juin

TRELLIS.2 now runs natively on MLX (Image to 3d object model)

Port natif MLX de TRELLIS.2 (Microsoft) pour Apple Silicon. Génération d'objets 3D à partir d'images en 512×512 (~70s) et 1024×1024 (~300-700s) sur M4 Max. Repo GitHub disponible.

Open source Outils Infrastructure

SIG

72

HYP

00

Reddit r/MachineLearning·17 juin

I deployed a GAN on a Raspberry Pi 4 and built a physical NFT minting device [P]

Déploiement d'un DCGAN 128×128 sur Raspberry Pi 4 connecté à un ESP32. Modèle entraîné 800 epochs sur M3 (4h), 2480 images, exporté en ONNX (53MB). Inférence 3s/image. Génère des visages hybrides avec titres aléatoires. Présenté comme installation artistique à NYC.

Génération d'images Open source Outils

SIG

72

HYP

00

Reddit r/LocalLLaMA·17 juin

Making budget models punch above their weight with a smart Rust harness

Un développeur Rust optimise les petits modèles de langage via une architecture système efficace. La harness Rust améliore les performances d'inférence sans modifier les poids du modèle, permettant aux modèles budget de rivaliser avec des versions plus grandes.

Open source Infrastructure Outils

SIG

45

HYP

00

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> openobserve /</span> openobserve

OpenObserve est une plateforme d'observabilité open-source couvrant logs, métriques, traces, monitoring frontend, pipelines et observabilité LLM. Alternative à Datadog/Splunk/Elasticsearch avec 140x moins de coûts de stockage et déploiement en binaire unique.

Open source Infrastructure Outils

SIG

65

HYP

00

The Decoder·17 juin

Hyperscalers may soon be unable to fund their AI buildout from cash flow alone

Selon Epoch AI, Microsoft, Amazon, Alphabet, Meta et Oracle augmentent leurs dépenses en infrastructure IA de ~70% annuels contre 23% pour le cash-flow opérationnel. Les dépenses pourraient dépasser le cash-flow dès Q3 2026. Plusieurs géants explorent déjà des financements externes.

Business Infrastructure

SIG

72

HYP

00

Reddit r/MachineLearning·17 juin

Next-Latent Prediction Transformers [R]

Microsoft Research propose Next-Latent Prediction (NextLat), une méthode d'apprentissage auto-supervisé où les transformers prédisent leur propre état latent suivant. Cela améliore la compression de l'historique, l'efficacité des données et accélère l'inférence jusqu'à 3.3x via décodage spéculatif récursif.

Raisonnement Reinforcement learning Papers

SIG

72

HYP

00

Reddit r/MachineLearning·17 juin

What is Speculative Decoding? (trending on paperswithco.de) [R]

Speculative Decoding est une technique d'optimisation d'inférence qui utilise un petit modèle rapide pour proposer plusieurs tokens futurs, vérifiés en parallèle par un modèle cible plus grand. SGLang a publié un blog détaillant comment atteindre des latences optimales pour l'inférence LLM avec Modal et les modèles DFlash de Z.ai.

Benchmarks Infrastructure

SIG

72

HYP

00

arXiv cs.LG·17 juin

Online LLM Selection via Constrained Bandits with Time-Varying Demand

Algorithme d'apprentissage en ligne pour sélectionner dynamiquement le meilleur LLM dans des systèmes edge-cloud sous contraintes de budget (coût, latence). Formulation en bandit stochastique contraint avec demande variable. Garanties théoriques : regret sublinéaire et violations de contraintes sublinéaires.

Agents IA Reinforcement learning Benchmarks

SIG

72

HYP

00

arXiv cs.LG·17 juin

Reconfigurable Computing Challenge: Transformer for Jet Tagging on Versal AI Engines

Implémentation d'un transformer quantifié en entiers pour le tagging de jets sur AMD Versal AI Engine (AIE). Framework logiciel réutilisable convertissant automatiquement des modèles Python en code Vitis pour déploiement en systèmes temps réel contraints. Code open-source disponible.

Vision Benchmarks Open source

SIG

75

HYP

00

arXiv cs.AI·17 juin

DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack

DeepInsight est une infrastructure d'évaluation unifiée pour les systèmes Physical AI, couvrant trois ordres de magnitude d'opérateurs (du décodage de modèles fondamentaux à la simulation physique complète). Elle utilise trois abstractions invariantes (task, resource, result) pour préserver l'hétérogénéité des régimes tout en permettant le diagnostic cross-layer des régressions.

Raisonnement Évaluations Robotique

SIG

75

HYP

00

arXiv cs.AI·17 juin

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

Article arXiv proposant une architecture pour des réseaux d'agents autonomes distribués en peer-to-peer. Les auteurs identifient trois mécanismes clés : propagation sémantique pour la découverte de collaborateurs, identité vérifiable et réputation multi-sujets (MG-EigenTrust), et conception de mécanismes pour l'exécution de tâches ouvertes. Prototypes et simulations présentés.

Agents IA Multi-agents Papers

SIG

65

HYP

00

Vercel AI Blog·17 juin

Introducing Vercel Connect

Vercel Connect, en bêta publique, remplace les tokens longs durée stockés par un échange de credentials à l'exécution. Les agents obtiennent des credentials éphémères et limités au contexte de chaque tâche via des connecteurs réutilisables (Slack, GitHub, etc.), éliminant les risques de fuite de tokens permanents.

Agents IA Outils Infrastructure

SIG

75

HYP

00

Vercel AI Blog·17 juin

Introducing eve

Vercel lance eve, un framework open-source pour construire et déployer des agents en production. eve fournit l'infrastructure prête à l'emploi (gestion des modèles, fallbacks, logging) ; les développeurs définissent uniquement le comportement via des fichiers (agent.ts, instructions.md, tools). Inspiré par Next.js pour le web, eve standardise la construction d'agents comme Next.js l'a fait pour les applications web.

Agents IA Open source Outils

SIG

75

HYP

00

Reddit r/LocalLLaMA·17 juin

Benchmarks from the latest eBay special: W6800 (modded V620)

Benchmarks d'une carte AMD Radeon Pro W6800 (V620 modifiée avec firmware W6800) testée avec Qwen 3.6 27B Q6_K via llama.cpp. Performance Vulkan : 297.94 t/s (pp1024), 20.35 t/s (tg256). Carte flashed pour mini-displayport mais avec cores compute réduits.

Benchmarks Open source Infrastructure

SIG

65

HYP

00

Vercel AI Blog·17 juin

Vercel Passport is now in Public Beta

Vercel Passport, outil de contrôle d'accès pour déploiements, passe en bêta publique. Centralise l'authentification via Okta, Auth0 ou OIDC. Tarif : 100 $/projet/mois, utilisateurs externes illimités.

Outils Infrastructure

SIG

75

HYP

00

Vercel AI Blog·17 juin

CLI deployment limits removed

Vercel supprime les limites de déploiement spécifiques à la CLI, permettant des déploiements plus rapides depuis les machines locales et les pipelines CI/CD externes. Les équipes et agents IA peuvent désormais déployer au rythme de leurs workflows.

Agents IA Infrastructure Outils

SIG

65

HYP

00

Vercel AI Blog·16 juin

Vercel for Enterprise Apps and Agents

Vercel lance une plateforme Enterprise Apps and Agents pour déployer des agents IA en interne en toute sécurité. Vercel Passport authentifie les accès via les fournisseurs d'identité (Okta, Entra, Auth0), tandis qu'une solution de gestion des credentials consolide OAuth, OIDC et l'injection de secrets.

Agents IA Infrastructure Sécurité IA

SIG

75

HYP

00

Reddit r/LocalLLaMA·16 juin

I didn't know it was possible to compile llamacpp to run cuda + vulkan at the same time..

Utilisateur compile llama.cpp avec CUDA et Vulkan simultanément sur W7800. Obtient +10% tokens/sec en décodage avec MiniMax-M3-UD-IQ2_M. Teste la combinaison de deux accélérateurs GPU pour optimiser les performances.

Open source Infrastructure

SIG

45

HYP

00

Reddit r/LocalLLaMA·16 juin

Minimax M3 (4 bit MLX) Initial Benchmark on Mac Studio M3u 512gb

Benchmark du modèle Minimax M3 en 4-bit MLX sur Mac Studio M3 512GB. Résultats : TTFT 3.1s (pp1024/tg128), throughput 147.7 tok/s, pic mémoire 226.6GB. Batching continu : speedup 1.83x à 4 requêtes parallèles (49.9 tok/s).

Benchmarks Open source Infrastructure

SIG

72

HYP

00

Hacker News (AI)·16 juin

Lexar Wants to Offload Local AI Models to SSD Amid the RAMpocalypse

Lexar propose de stocker les modèles IA locaux sur SSD plutôt qu'en RAM pour contourner les limitations mémoire. La stratégie vise à réduire les coûts matériels et rendre l'inférence IA accessible sur des appareils avec peu de RAM.

Infrastructure Outils

SIG

35

HYP

00

Simon Willison·16 juin

datasette-tailscale 0.1a0

Release de datasette-tailscale 0.1a0, plugin alpha expérimental permettant de déployer un serveur Datasette via Tailscale. Utilise les bindings Python de la librairie tailscale-rs pour connecter une instance locale à un Tailnet.

Outils Open source Infrastructure

SIG

72

HYP

00

Hacker News (AI)·16 juin

GateGPT: 56k tokens per second Transformer (KV cache) on FPGA at 80 MHz

GateGPT atteint 56k tokens/sec sur FPGA à 80 MHz en optimisant le cache KV des Transformers. Démonstration d'accélération matérielle pour l'inférence.

Infrastructure Benchmarks

SIG

65

HYP

00

Le Big Data·16 juin

Google Cloud soutient l’ambition de superintelligence d’Ineffable Intelligence

Ineffable Intelligence lève 1,1 milliard de dollars et s'appuie sur Google Cloud pour développer ses ambitions en superintelligence. Le partenariat inclut l'infrastructure cloud nécessaire aux entraînements de modèles à grande échelle.

DeepMind Financements Infrastructure

SIG

45

HYP

00

GitHub Trending·16 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> tracel-ai /</span> burn

Burn est une bibliothèque tensor et framework de deep learning nouvelle génération axé sur la flexibilité, l'efficacité et la portabilité.

Open source Infrastructure

SIG

45

HYP

00

Le Big Data·16 juin

Nvidia mobilise 20 milliards de dollars de dette pour renforcer son offensive dans l’IA

Nvidia émet jusqu'à 25 milliards de dollars de dette sur le marché obligataire pour financer son expansion dans l'IA. Cette mobilisation de capital renforce la position du géant des semiconducteurs face à la concurrence croissante.

Business Infrastructure

SIG

65

HYP

00

Le Big Data·16 juin

Hydra Host lève 100 millions de dollars pour développer ses usines dédiées à l’IA

Hydra Host lève 100 millions de dollars menés par Kindred Ventures pour développer ses usines dédiées à l'IA et accélérer son expansion.

Infrastructure Financements

SIG

65

HYP

00

arXiv cs.AI·16 juin

CONCORD: Asynchronous Sparse Aggregation for Device-Cloud RAG under Document Isolation

CONCORD est un framework pour RAG asynchrone sur device-cloud avec isolation documentaire. Il utilise un contrôle de dette d'attente et une supplémentation minimale guidée par certificat pour réduire la synchronisation et le transfert de données. Améliore le débit de 1.66× à 2.15× sur Natural Questions et WikiText-2 tout en réduisant la communication par token de plus de 100×.

RAG Papers Infrastructure

SIG

78

HYP

00

arXiv cs.LG·16 juin

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

PolyKV optimise la compression du cache KV en appliquant des stratégies hétérogènes par couche transformer, plutôt qu'une politique uniforme. Sur LLaMA-3.1-8B et Qwen3-8B, avec budget KV de 512 tokens, PolyKV récupère 54,5% et 25,7% de l'écart de performance LongBench versus FullKV.

Benchmarks Infrastructure Raisonnement

SIG

78

HYP

00

arXiv cs.LG·16 juin

M-CTX: Exact and Scalable Spatial Context Retrieval for Trajectory Analytics

M-CTX est un framework de récupération de contexte spatial pour l'analytique de trajectoires. Il remplace trois étapes brute-force (récupération OSM, calcul SDF, recherche de voisins) par des opérateurs indexés. Sur un corpus maritime de 5,48M anchors, il réduit le temps de construction de contexte de 17 jours CPU à 1,8 heures (speedup 226x), avec reproduction exacte du contexte de référence.

Benchmarks Infrastructure Open source

SIG

78

HYP

00

#Infrastructure

The Agent Stack

Dual Dimensionality for Local and Global Attention

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

Towards an Agent-First Web: Redesigning the Web for AI Agents

[x86] AI Compute Extensions (ACE) Specification

llama.cpp now supports model management (downloading etc) via API

I released Inflect-Nano, an ultra-extreme tiny 4.63m parameter TTS model.

llama.cpp - how to free up even more space on your GPU

My GLM-5.2-FP8 HGX-H200 SGLang docker deploy config

Gemma 4 E2B running in-browser at 255 tok/s using WebGPU kernels written by Fable 5

Vercel Ship 2026 recap

TRELLIS.2 now runs natively on MLX (Image to 3d object model)

I deployed a GAN on a Raspberry Pi 4 and built a physical NFT minting device [P]

Making budget models punch above their weight with a smart Rust harness

Hyperscalers may soon be unable to fund their AI buildout from cash flow alone

Next-Latent Prediction Transformers [R]

What is Speculative Decoding? (trending on paperswithco.de) [R]

Online LLM Selection via Constrained Bandits with Time-Varying Demand

Reconfigurable Computing Challenge: Transformer for Jet Tagging on Versal AI Engines

DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

Introducing Vercel Connect

Introducing eve

Benchmarks from the latest eBay special: W6800 (modded V620)

Vercel Passport is now in Public Beta

CLI deployment limits removed

Vercel for Enterprise Apps and Agents

I didn't know it was possible to compile llamacpp to run cuda + vulkan at the same time..

Minimax M3 (4 bit MLX) Initial Benchmark on Mac Studio M3u 512gb

Lexar Wants to Offload Local AI Models to SSD Amid the RAMpocalypse

datasette-tailscale 0.1a0

GateGPT: 56k tokens per second Transformer (KV cache) on FPGA at 80 MHz

Google Cloud soutient l’ambition de superintelligence d’Ineffable Intelligence

Nvidia mobilise 20 milliards de dollars de dette pour renforcer son offensive dans l’IA

Hydra Host lève 100 millions de dollars pour développer ses usines dédiées à l’IA

CONCORD: Asynchronous Sparse Aggregation for Device-Cloud RAG under Document Isolation

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

M-CTX: Exact and Scalable Spatial Context Retrieval for Trajectory Analytics