Topic

#Infrastructure

L'infrastructure IA désigne l'ensemble des ressources matérielles et logicielles qui permettent d'entraîner et de déployer des modèles. Cela inclut par exemple les clusters GPU d'AWS (EC2 P5) ou les frameworks de serving comme Ray Serve.

40Articles
13Sources
62Signal moyen
arXiv cs.AI·

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

AURA-Mem propose une mémoire récurrente de taille constante (4,224 bytes) pour les politiques robotiques, avec une porte apprise qui n'écrit en mémoire que si l'observation change l'action suivante. Sur LIBERO-Long avec OpenVLA-OFT 7B, elle égale la politique de base (0.233 de succès) tout en réduisant les écritures mémoire de 7× et la consommation VRAM de 6,061× vs KV-cache.

RobotiqueAgents IARaisonnement
SIG
78
HYP
00
Reddit r/MachineLearning·

MiniMax dropped a new attention architecture. [N]

MiniMax introduit une nouvelle architecture d'attention (MSA) supportant nativement 1M tokens sans complexité quadratique. Approche « KV outer gather Q » offrant 4× plus rapide que Flash-Sparse-Attention, réduction compute à 1/20e, 9× speedup prefilling, 15× decoding. Premier modèle open-weight combinant coding frontier, 1M contexte et multimodalité native.

RaisonnementGénération de codeVision
SIG
72
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> wasmerio /</span> wasmer

Wasmer est un runtime WebAssembly pour exécuter des conteneurs légers et sécurisés. Le projet gagne en popularité sur GitHub Trending, positionnant WebAssembly comme alternative aux conteneurs traditionnels.

InfrastructureOpen source
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> EricLBuehler /</span> mistral.rs

mistral.rs est un framework d'inférence LLM optimisé pour la vitesse et la flexibilité. Projet open-source permettant l'exécution efficace de modèles de langage.

MistralOpen sourceInfrastructure
SIG
65
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVIDIA /</span> OpenShell

OpenShell est un runtime sécurisé et privé pour agents IA autonomes, développé par NVIDIA. Le projet est disponible sur GitHub et vise à fournir une infrastructure d'exécution contrôlée pour les systèmes multi-agents.

Agents IAMulti-agentsInfrastructure
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> chopratejas /</span> headroom

Headroom compresse les sorties d'outils, logs, fichiers et chunks RAG avant envoi au LLM. Réduit de 60-95% les tokens consommés sans dégrader les réponses. Disponible en library, proxy et serveur MCP.

RAGMCPOutils
SIG
72
HYP
00
arXiv cs.AI·

Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture

Papier de synthèse proposant l'Intelligent Computing Architecture Model (ICAM), un cadre à 6 couches pour l'informatique model-native. Mappe les concepts d'architecture informatique classique aux systèmes LLM (gestion de cache, contexte, agents). Introduit trois lois de conception : Semantic Locality Law, Context Budget Law, Agent Speedup Law. Distingue plan d'exécution probabiliste et plan de contrôle déterministe.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
00
arXiv cs.AI·

Threshold-Based Exclusive Batching for LLM Inference

Article arXiv sur l'optimisation du batching pour l'inférence LLM. Les auteurs montrent que le mixed batching (MB) n'est pas toujours optimal : sur GPUs à bande passante limitée (RTX PRO 6000), le batching exclusif (EB) surpasse MB de 41,9% en débit. Ils proposent EB+, un scheduler hybride qui bascule dynamiquement entre EB et MB selon la bande passante GPU et la composition de la charge.

InfrastructureBenchmarksPapers
SIG
78
HYP
00
Reddit r/LocalLLaMA·

I spent months inside verl (an RL post-training framework), forked it, then stopped. Wrote up the internals, the tooling a fork costs, and a nasty NCCL bug.

Un chercheur ayant travaillé plusieurs mois sur verl (framework RL post-training de ByteDance) détaille ses internals : orchestration des boucles RLHF, pattern single-controller, structures de données (DataProto), et un bug NCCL découvert. Fork abandonné mais expérience documentée pour la communauté.

Reinforcement learningAgents IAOpen source
SIG
65
HYP
00
Infrastructure — actualité IA · Signal IA