Archives

mai 2026

3148 articles

arXiv cs.LG·

Multi-Pedestrian Safety Warning at Urban Intersections Use Case of Digital Twin

Système d'alerte de sécurité pour piétons aux carrefours urbains utilisant un jumeau numérique couplé à des capteurs (caméra, UWB) et modélisation prédictive de trajectoires. Déployé sur le testbed COSMOS à New York, le système génère des alertes en temps réel via edge-cloud computing et réduit significativement les temps de réaction des usagers vulnérables.

VisionInfrastructureSécurité IA
SIG
72
HYP
28
arXiv cs.LG·

Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches

SAECache propose une politique d'éviction sémantique pour les caches de préfixes LLM. Les tokens ne sont pas tous aussi utiles à cacher : certains types (prompts système, requêtes utilisateur, outputs d'outils) montrent jusqu'à 756x de variation en taux de réutilisation. SAECache utilise une architecture multi-queue avec apprentissage en ligne pour adapter les priorités, atteignant 1.4x-2.7x d'amélioration TTFT.

RaisonnementInfrastructureBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

In-Context Learning Operates as Concept Subspace Learning

Étude mécanistique de l'apprentissage en contexte (ICL) montrant que les démonstrations structurées induisent une inférence de concepts dans un sous-espace de faible dimension. Sur Llama-3-8B, un sous-espace de 68–73 dimensions sur 4096 restaure 78,8% de la performance, tandis que le sous-espace complémentaire n'a aucun effet. Résultats confirmés sur Qwen2.5-7B et tâches multilingues.

RaisonnementLlamaQwen
SIG
82
HYP
15
arXiv cs.LG·

An Integrated Forecasting Prototype for Emergency Department Boarding Time to Support Proactive Operational Decision Making

Prototype de prévision du temps d'attente aux urgences utilisant des modèles de séries temporelles (DLinear, NLinear) sur données hospitalières réelles. Intègre météo, jours fériés et événements locaux. Horizons de prévision : 6, 8, 10, 12 et 24 heures. Application MLOps développée pour déploiement opérationnel.

BenchmarksInfrastructureOutils
SIG
72
HYP
15
arXiv cs.LG·

VCR: Learning Valid Contextual Representation for Incomplete Wearable Signals

VCR est un framework auto-supervisé pour l'apprentissage de représentations robustes à partir de capteurs portables incomplets. Il utilise un tokenizer orthogonal pour séparer les sémantiques partagées des résidus spécifiques à chaque modalité, et un backbone mixture-of-experts conscient des absences. VCR améliore les performances en santé numérique même avec modalités manquantes simples ou multiples.

PapersEmbeddingsReinforcement learning
SIG
72
HYP
18
arXiv cs.LG·

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling

Étude de 63 modèles de base montrant une transition de phase cachée : sous ~3.5B paramètres, raisonnement et véracité s'anticorrèlent ; au-delà, ils coopèrent. Architecture, données et recette d'entraînement décalent indépendamment ce seuil critique. Normalisation de largeur élimine l'anticorrélation ; modèles frontière atteignent r=+0.72. Outil open-source et dashboard diagnostique publiés.

BenchmarksAlignementRaisonnement
SIG
82
HYP
25
arXiv cs.LG·

The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next

Analyse de 34 modèles frontier (2024-2026) montrant que les capacités de raisonnement et codage coopèrent (r=+0.72) mais avec variations par lab. DeepSeek a basculé de reasoning-first à coding-first (+11.2→-4.7); Google maintient l'équilibre; Anthropic oscille. SWE-bench sature tandis que HLE et instruction-following restent discriminants. Prédictions falsifiables pour 12 mois avec dashboard interactif.

BenchmarksÉvaluationsRaisonnement
SIG
78
HYP
22
arXiv cs.AI·

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Learn-by-Wire Guard (LBW-Guard) est une couche de gouvernance autonome qui supervise l'optimiseur AdamW pendant l'entraînement de modèles de langage. Testé sur Qwen2.5-7B avec WikiText-103, LBW-Guard réduit la perplexité finale de 13.21 à 10.74 (−18.7%) et accélère l'entraînement de 1.10×. Sous stress de learning-rate extrême (LR=3e-3), AdamW échoue (perplexité 1885.24) tandis que LBW-Guard reste stable (11.57).

QwenReinforcement learningBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents

POLAR-Bench est un benchmark diagnostique évaluant les compromis confidentialité-utilité dans les agents LLM. Un modèle de confiance avec politique de confidentialité interagit avec un modèle tiers adversarial sur 10 domaines et 7,852 échantillons. Les modèles frontière retiennent 99% des attributs protégés, mais les modèles open-weight 1-30B (courants en inférence privée) fuient jusqu'à 50% des données sensibles.

Agents IASécurité IAAlignement
SIG
78
HYP
25
arXiv cs.LG·

From Cumulative Constraints to Adaptive Runtime Safety Control for Nonstationary Reinforcement Learning

CPSS (Constraint Projection Safety Shield) convertit les budgets de sécurité cumulatifs en seuils de contrôle adaptatifs au niveau des états pour l'apprentissage par renforcement non-stationnaire. Le mécanisme ajuste dynamiquement les contraintes de risque selon le contexte, garantit la satisfaction des seuils par état et réduit les violations de sécurité dans des scénarios de fusion autoroutière.

Reinforcement learningSécurité IARaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Progressive Autonomy as Preference Learning: A Formalization of Trust Calibration for Agentic Tool Use

Formalisation de l'étalonnage de la confiance pour les agents autonomes via apprentissage de préférences. Un gateway utilise un processus gaussien pour modéliser la tolérance au risque humain à partir de retours binaires (approuver/refuser), et escalade les décisions incertaines à l'humain. Approche structurée comme optimisation bayésienne préférentielle.

Agents IARaisonnementSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Discoverable Agent Knowledge -- A Formal Framework for Agentic KG Affordances (Extended Version)

Framework formel pour décrire les capacités des graphes de connaissances vis-à-vis des agents. Étend les standards VoID/DCAT avec l'Agentic Affordance Profile (AAP) pour spécifier ce qu'un agent peut prouver, les hypothèses de fermeture et l'alignement vocabulaire. Identifie les divergences entre schéma et régime d'inférence comme source d'échecs épistémiques.

Agents IARAGPapers
SIG
72
HYP
15
arXiv cs.AI·

Not all uncertainty is alike: volatility, stochasticity, and exploration

Article théorique sur l'exploration adaptative en environnements incertains. Distingue volatilité (drift des récompenses) et stochasticité (bruit d'observation) : la première augmente l'exploration optimale, la seconde la réduit. Propose CAUSE, bonus d'exploration en forme fermée via control-as-inference, validé sur bandits gaussiens avec dynamiques latentes.

Reinforcement learningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents

SERL, un framework d'apprentissage par renforcement sélectif, améliore l'entraînement d'agents LLM multi-tours en exploitant les retours environnementaux granulaires (messages d'erreur, changements de page, trajectoires de référence). Sur ALFWorld et WebShop, SERL atteint 90,0% et 80,1% de succès, surpassant les baselines RL et distillation existantes.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Library Drift: Diagnosing and Fixing a Silent Failure Mode in Self-Evolving LLM Skill Libraries

Les bibliothèques de compétences auto-évolutives souffrent d'une dégradation silencieuse appelée « library drift » : accumulation non bornée sans gestion du cycle de vie. L'étude isole le mécanisme (ablations), propose des diagnostics trace-level, et valide un correctif (retraite outcome-driven + cap actif + prior meta-skill) qui améliore pass@1 de 0.258 à 0.584 sur MBPP+ hard-100.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents

Formal Skill est une abstraction runtime pour les agents LLM qui structure les compétences réutilisables via métadonnées JSON, schémas d'action, exécuteurs Python et logique de contrôle par hooks. Implémentée dans FairyClaw (runtime open-source événementiel), elle remplace les procédures en texte naturel par des machines à états exécutables, réduisant les tokens tout en améliorant la fiabilité sur Harness-Bench.

Agents IAMCPGénération de code
SIG
78
HYP
25
arXiv cs.LG·

Safe Continual Reinforcement Learning under Nonstationarity via Adaptive Safety Constraints

LILAC+ propose un cadre pour l'apprentissage par renforcement continu sûr en environnements non-stationnaires. Le système combine trois mécanismes adaptatifs : contraintes de sécurité basées sur le contexte, contraintes de vitesse d'adaptation, et application de budget-à-état. Évalué en simulation de conduite, il réduit les violations de sécurité sous changement de distribution tout en maintenant la performance.

Reinforcement learningSécurité IAAlignement
SIG
72
HYP
18
Reddit r/MachineLearning·

I built a tool that shows you what GPT-2 is "thinking" in real-time as it generates 3D graph of concept activations per token [R]

AXON visualise en temps réel les activations de concepts dans GPT-2 via un graphe 3D force-directed. Un Sparse Autoencoder décompose le residual stream en features interprétables (géographie, villes, langues) à chaque token généré. Stack : TransformerLens + SAELens (backend), FastAPI WebSocket, Three.js (frontend). ~35ms/token sur GPU.

GPTOpen sourceOutils
SIG
72
HYP
35
Reddit r/LocalLLaMA·

PrivateScribe.ai - Fully local, MIT licensed, free AI transcription built with HIPAA/legal safeguards in mind - One Year Update!

PrivateScribe.ai, plateforme de transcription open-source entièrement locale (MIT), annonce sa v1 avec app macOS signée. Stack : FasterWhisper, pyannote, Ollama, Vite/Flask/SQLite. Chiffrement 256-bit, zéro appels réseau, audit trail, diarisation. Conçu pour cliniques, avocats, thérapeutes avec conformité HIPAA.

Open sourceVoixGénération de code
SIG
72
HYP
28
Reddit r/LocalLLaMA·

A tool I built to generate 3D objects with functional, articulated parts. It's on github, and is mostly LLM-agnostic.

Outil open-source pour générer des objets 3D articulés avec pièces fonctionnelles. Au lieu de diffusion (blobs point-cloud), le pipeline utilise un LLM comme compilateur de code structuré, générant du code Python Blender natif ciblant des nœuds spécifiques. Frontend Flutter/Three.js, model-agnostic. Gemini recommandé ; modèles locaux hallucinent encore sur les transformations matricielles complexes.

Génération de codeOpen sourceOutils
SIG
72
HYP
35
Reddit r/LocalLLaMA·

An overview of modern LLM compiler stack: writing an interactive and hackable compiler

Un développeur a construit un compilateur ML minimaliste en Python/CUDA pur, sans dépendances externes. Il abaisse des transformers (TinyLlama, Qwen2.5-7B) via 6 IRs successifs jusqu'à des kernels CUDA. Sur RTX 5090, performance à 0.96× du stack PyTorch production, avec 32/84 formes de kernel surpassant les optimisations manuelles (jusqu'à 5.6× plus rapide).

Génération de codeInfrastructureOpen source
SIG
75
HYP
25
Reddit r/LocalLLaMA·

Public Repository "Codegraph" claims to reduce Claude, Cursor, Codex, and OpenCode API tool calls by 94% locally, an innovation that could directly offset the most recent Claude API pricing model.

Codegraph, un outil open-source de Colbymchenry, réduit les appels API Claude/Cursor de 94% en utilisant un graphe de connaissances pré-indexé (relations de symboles, call graphs). Les tests montrent 3 appels vs 52 sans l'outil sur VS Code TypeScript, avec accélération de 72-82%.

ClaudeGénération de codeAgents IA
SIG
72
HYP
45
Reddit r/LocalLLaMA·

unpopular opinion: cursor and claude code arent getting dumber, their agent loops are structurally blind and suffocating your context window

Un utilisateur critique l'architecture des agents de code (Cursor, Claude Code) : les modèles ne dégradent pas, mais leurs boucles d'exploration sont structurellement aveugles. Ils dumping massivement des fichiers en contexte, génèrent du bruit (logs, définitions MCP) et perdent la mémoire du projet à chaque session, saturant la fenêtre de contexte avant même de raisonner.

Claude CodeAgents IAGénération de code
SIG
45
HYP
55
Reddit r/MachineLearning·

xAI just sold its entire flagship data center to Anthropic. That's not what frontier AI labs do. [N]

xAI vend 300 MW de capacité de calcul de son centre Colossus 1 à Anthropic pour plusieurs milliards de dollars. L'analyste soulève que les labs IA frontière accumulent généralement le calcul comme actif stratégique plutôt que de le vendre à des concurrents directs, suggérant que Colossus 1 était sous-utilisé et que Grok consomme moins de ressources que prévu.

AnthropicInfrastructureBusiness
SIG
45
HYP
55
Reddit r/MachineLearning·

Graph spectral analysis (Fiedler value + Scheffer CSD indicators) predicts grokking 21k steps before loss function - five reproducible experiments [R]

Analyse spectrale des graphes de poids (valeur de Fiedler + indicateurs CSD de Scheffer) pour prédire le grokking 21k étapes avant la convergence. Cinq expériences reproductibles sur CPU : détection précoce, distinction grokking/oubli catastrophique, intervention guidée (91.7% vs 2.6%), accélération 48x sur tâches séquentielles. Limité à MLPs 2-couches et transformers 1-couche.

PapersÉvaluationsRaisonnement
SIG
72
HYP
28
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> alirezarezvani /</span> claude-skills

Répertoire de 313+ compétences pour Claude Code et 8 autres agents de codage (Codex, Gemini CLI, Cursor). Couvre ingénierie, marketing, produit, conformité, recherche, opérations et productivité.

Claude CodeAgents IAOutils
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> multica-ai /</span> andrej-karpathy-skills

Un fichier CLAUDE.md basé sur les observations d'Andrej Karpathy pour améliorer le comportement de Claude Code en matière de codage. Vise à corriger les pièges courants des LLM.

ClaudeClaude CodePrompt engineering
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> colbymchenry /</span> codegraph

Codegraph : graphe de connaissances pré-indexé pour Claude Code, Codex, Cursor et OpenCode. Réduit les tokens et appels d'outils, fonctionne 100% en local.

Claude CodeGénération de codeRAG
SIG
65
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> HKUDS /</span> CLI-Anything

CLI-Anything transforme les interfaces en ligne de commande pour les rendre compatibles avec les agents IA. Le projet vise à rendre tous les logiciels « agent-native » via une approche CLI unifiée.

Agents IAOutilsOpen source
SIG
45
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Alishahryar1 /</span> free-claude-code

Outil permettant d'utiliser Claude Code gratuitement en ligne de commande, extension VSCode ou Discord avec support vocal, inspiré par OpenClaw.

Claude CodeOutilsOpen source
SIG
35
HYP
55
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> humanlayer /</span> 12-factor-agents

12-factor-agents propose des principes pour construire des agents LLM robustes en production. Le projet GitHub établit des bonnes pratiques inspirées de la méthodologie 12-factor pour les systèmes d'IA autonomes destinés aux clients.

Agents IAOpen source
SIG
45
HYP
35
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> msitarzewski /</span> agency-agents

Agency-agents : framework open-source pour déployer une agence d'IA multi-agents spécialisés. Chaque agent possède des rôles distincts (frontend, community management, validation) avec processus et livrables définis.

Multi-agentsAgents IAOpen source
SIG
45
HYP
65