Topic

#Agents IA

Un agent IA est un programme capable de planifier et d'exécuter des actions de façon autonome pour atteindre un objectif. OpenAI Swarm ou AutoGPT sont des exemples de frameworks permettant d'orchestrer ces agents.

40Articles
12Sources
62Signal moyen
arXiv cs.AI·

Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks

Étude de la « dette de passation » : le coût de redécouverte quand un agent de codage reprend une tâche interrompue. Sur 75 tâches et 724 exécutions, fournir des notes structurées réduit les événements médians de 20–59 % et les tokens de 42–63 % vs. état du dépôt seul. Les benchmarks d'agents doivent évaluer l'efficacité de reprise, pas seulement la résolution.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

AURA-Mem propose une mémoire récurrente de taille constante (4,224 bytes) pour les politiques robotiques, avec une porte apprise qui n'écrit en mémoire que si l'observation change l'action suivante. Sur LIBERO-Long avec OpenVLA-OFT 7B, elle égale la politique de base (0.233 de succès) tout en réduisant les écritures mémoire de 7× et la consommation VRAM de 6,061× vs KV-cache.

RobotiqueAgents IARaisonnement
SIG
78
HYP
00
Reddit r/LocalLLaMA·

Why do we benchmark quants on perplexity and prose but never on tool call validity?

Un utilisateur de r/LocalLLaMA soulève que les benchmarks de quantification se concentrent sur la perplexité et la qualité prose, mais ignorent la validité des appels d'outils. Il hypothèse que les erreurs de quantification dégradent les sorties structurées (JSON, schémas) plus tôt que le texte libre, rendant les métriques actuelles inadéquates pour les cas d'usage agentiques.

BenchmarksAgents IAÉvaluations
SIG
35
HYP
00
Reddit r/MachineLearning·

MiniMax dropped a new attention architecture. [N]

MiniMax introduit une nouvelle architecture d'attention (MSA) supportant nativement 1M tokens sans complexité quadratique. Approche « KV outer gather Q » offrant 4× plus rapide que Flash-Sparse-Attention, réduction compute à 1/20e, 9× speedup prefilling, 15× decoding. Premier modèle open-weight combinant coding frontier, 1M contexte et multimodalité native.

RaisonnementGénération de codeVision
SIG
72
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> jamwithai /</span> production-agentic-rag-course

Cours open-source sur la construction d'agents RAG en production. Couvre l'architecture, les patterns d'implémentation et les bonnes pratiques pour déployer des systèmes agentic retrieval-augmented generation.

Agents IARAGOpen source
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> googleworkspace /</span> cli

Google Workspace CLI : outil en ligne de commande unifié pour Drive, Gmail, Calendar, Sheets, Docs, Chat, Admin. Généré dynamiquement via Google Discovery Service. Inclut des capacités d'agent IA.

Agents IAOutilsOpen source
SIG
65
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVIDIA /</span> OpenShell

OpenShell est un runtime sécurisé et privé pour agents IA autonomes, développé par NVIDIA. Le projet est disponible sur GitHub et vise à fournir une infrastructure d'exécution contrôlée pour les systèmes multi-agents.

Agents IAMulti-agentsInfrastructure
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> janhq /</span> jan

Jan est une alternative open-source à ChatGPT fonctionnant 100% hors ligne sur l'ordinateur local. Projet GitHub trending.

Open sourceAgents IA
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> JCodesMore /</span> ai-website-cloner-template

Outil permettant de cloner n'importe quel site web en une seule commande via des agents IA de codage. Projet open-source sur GitHub Trending.

Agents IAGénération de codeOpen source
SIG
35
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mksglu /</span> context-mode

Context-mode optimise la fenêtre de contexte pour les agents IA de codage en isolant les sorties d'outils. Réduit la consommation de tokens de 98%. Compatible avec 15 plateformes.

Agents IAGénération de codePrompt engineering
SIG
72
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> nanocoai /</span> nanoclaw

Nanoclaw est une alternative légère à OpenClaw exécutée en conteneurs. Intègre WhatsApp, Telegram, Slack, Discord, Gmail et autres apps de messagerie. Inclut mémoire, tâches planifiées, fonctionne sur l'Agents SDK d'Anthropic.

AnthropicAgents IAOpen source
SIG
65
HYP
00
Reddit r/MachineLearning·

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

CVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.

Agents IABenchmarksSécurité IA
SIG
78
HYP
00
arXiv cs.LG·

Agentic Transformers Provably Learn to Search via Reinforcement Learning

Étude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
00
arXiv cs.AI·

Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design

PROBE, un framework d'optimisation pour agents LLM en conception de médicaments, résout le conflit entre affinité de liaison et druggabilité. Via probing d'édits contrôlés et une site map spécifique à la poche, il guide une boucle multi-agent (affinité, druggabilité, co-optimisation) sur CrossDocked2020 avec résultats SOTA.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
00
arXiv cs.AI·

Acting with AI: An Interaction-Based Framework for Agentic Tort Liability

Un cadre juridique pour la responsabilité civile des systèmes IA agentiques. L'article propose trois catégories d'interaction (dérive autonome, outil pur, planification collaborative) et utilise les logs d'interaction comme preuve pour déterminer où la responsabilité s'attache. Introduit un standard « Agent Raisonnable » basé sur la vérification de contraintes et la traçabilité.

Agents IARégulationSécurité IA
SIG
72
HYP
00
arXiv cs.AI·

Deliberative Curation: A Protocol for Multi-Agent Knowledge Bases

Protocole de gouvernance pour bases de connaissances multi-agents combinant cycle de vie formalisé, vote délibératif pondéré par réputation (Beta Reputation + EigenTrust) et sanctions graduées. Évaluation sur 100 agents, 7 archétypes comportementaux : 0.826 vs 0.791 de précision face à l'adversité modérée (p<0.001). Le masquage vote commit-reveal apporte +8.2-8.6pp.

Multi-agentsAgents IABenchmarks
SIG
72
HYP
00
arXiv cs.CL·

Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning

SelSkill, un framework d'apprentissage par préférence dual-granularité, optimise l'invocation sélective de compétences dans les tâches agentic. Sur ALFWorld avec Qwen3-8B : +10,9 pp de succès, +29,1 pp de précision. Sur BFCL : +5,7 pp de succès, +29,5 pp de précision. Transfère à zéro-shot sur Tau-bench et PopQA.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
00
arXiv cs.CL·

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

SPADER est un framework RL pour agents LLM augmentés d'outils en Multi-Answer QA. Il introduit Step-wise Peer Advantage (SPA) pour l'attribution de crédit fine-grained sur trajectoires longues, et une récompense d'exploration sensible à la diversité favorisant la découverte d'entités rares. Évalué sur QAMPARI, Mintaka, WebQSP, QUEST : amélioration du recall et F1 vs prompting et RL supervisé.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
00
arXiv cs.AI·

A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

AbaqusAgent est un framework multi-agents basé sur LLM pour l'analyse par éléments finis (FEA) en mécanique des solides. Composé de six agents (interpréteur, architecte, rédacteur, exécuteur, vérificateur, visualiseur), il convertit des instructions en langage naturel en analyses FEA exécutées avec Abaqus. Validé sur 50 problèmes avec 86% de succès.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
00
arXiv cs.AI·

Closed-Loop Neural Activation Control in Vision-Language-Action Models

CTRL-STEER propose un cadre de contrôle en boucle fermée pour les modèles Vision-Language-Action (VLA). Au lieu d'utiliser un coefficient de direction fixe, la méthode adapte dynamiquement la force d'intervention via des contrôleurs PID ou par apprentissage par renforcement. Tests sur OpenVLA et LIBERO montrent une meilleure stabilité et un meilleur compromis entre direction et succès de tâche.

VisionAgents IAReinforcement learning
SIG
72
HYP
00
arXiv cs.AI·

Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture

Papier de synthèse proposant l'Intelligent Computing Architecture Model (ICAM), un cadre à 6 couches pour l'informatique model-native. Mappe les concepts d'architecture informatique classique aux systèmes LLM (gestion de cache, contexte, agents). Introduit trois lois de conception : Semantic Locality Law, Context Budget Law, Agent Speedup Law. Distingue plan d'exécution probabiliste et plan de contrôle déterministe.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
00