RSS

arXiv cs.AI

https://arxiv.org/list/cs.AI/recent

arXiv cs.AI·

Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks

Étude de la « dette de passation » : le coût de redécouverte quand un agent de codage reprend une tâche interrompue. Sur 75 tâches et 724 exécutions, fournir des notes structurées réduit les événements médians de 20–59 % et les tokens de 42–63 % vs. état du dépôt seul. Les benchmarks d'agents doivent évaluer l'efficacité de reprise, pas seulement la résolution.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI aligne les représentations structurées des dossiers médicaux électroniques (EHR) avec l'espace sémantique d'un LLM gelé via un resampler task-aware. Le framework multimodal intègre les représentations longitudinales des patients avec des descriptions d'événements cliniques raffinées, améliorant le raisonnement clinique interprétable tout en maintenant la performance prédictive sur le benchmark EHRSHOT.

RAGRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces

BehaviorBench est un benchmark pour évaluer la modélisation des décisions personnalisées à partir de traces comportementales réelles. Construit sur 2 000 portefeuilles avec 141 445 instances de prédiction de croyances et 1 485 972 instances de prédiction de transactions, il teste si les modèles génératifs peuvent adapter leurs prédictions aux utilisateurs individuels sans simulation.

BenchmarksÉvaluationsPapers
SIG
75
HYP
15
arXiv cs.AI·

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

AURA-Mem propose une mémoire récurrente de taille constante (4,224 bytes) pour les politiques robotiques, avec une porte apprise qui n'écrit en mémoire que si l'observation change l'action suivante. Sur LIBERO-Long avec OpenVLA-OFT 7B, elle égale la politique de base (0.233 de succès) tout en réduisant les écritures mémoire de 7× et la consommation VRAM de 6,061× vs KV-cache.

RobotiqueAgents IARaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design

PROBE, un framework d'optimisation pour agents LLM en conception de médicaments, résout le conflit entre affinité de liaison et druggabilité. Via probing d'édits contrôlés et une site map spécifique à la poche, il guide une boucle multi-agent (affinité, druggabilité, co-optimisation) sur CrossDocked2020 avec résultats SOTA.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

Acting with AI: An Interaction-Based Framework for Agentic Tort Liability

Un cadre juridique pour la responsabilité civile des systèmes IA agentiques. L'article propose trois catégories d'interaction (dérive autonome, outil pur, planification collaborative) et utilise les logs d'interaction comme preuve pour déterminer où la responsabilité s'attache. Introduit un standard « Agent Raisonnable » basé sur la vérification de contraintes et la traçabilité.

Agents IARégulationSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Deliberative Curation: A Protocol for Multi-Agent Knowledge Bases

Protocole de gouvernance pour bases de connaissances multi-agents combinant cycle de vie formalisé, vote délibératif pondéré par réputation (Beta Reputation + EigenTrust) et sanctions graduées. Évaluation sur 100 agents, 7 archétypes comportementaux : 0.826 vs 0.791 de précision face à l'adversité modérée (p<0.001). Le masquage vote commit-reveal apporte +8.2-8.6pp.

Multi-agentsAgents IABenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Product-Aware Deep Autoencoders for Robust Process Monitoring in Multi-Product Cyber-Physical Systems

Article académique proposant des autoencodeurs sensibles aux produits pour la détection d'anomalies dans les systèmes cyber-physiques multi-produits. Les modèles globaux traditionnels créent des « angles morts » où les attaques peuvent passer inaperçues. Tests sur Tennessee Eastman Process : le modèle produit-aware détecte 100% des scénarios d'attaque contre 22.2% pour le modèle global.

BenchmarksSécurité IAÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations

Article de position sur la robustesse post-résolution dans les moteurs de décision MILP. Identifie un écart : les solutions optimales nominales deviennent infaisables sous petites perturbations de coûts ou ressources. Propose une couche d'audit formalisée autour de la solution incumbente, combinant approximations certifiées, estimation probabiliste et vérification solver-backed.

BenchmarksPapersSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games

Benchmark d'évaluation du raisonnement interactif pour LLM basé sur 474 jeux exécutables. Les modèles reçoivent uniquement les règles, doivent interroger un environnement caché, intégrer observations partielles et décider quand répondre. Évalue robustesse contextuelle, adaptation métacognitive et efficacité d'interaction sur modèles frontier.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

AbaqusAgent est un framework multi-agents basé sur LLM pour l'analyse par éléments finis (FEA) en mécanique des solides. Composé de six agents (interpréteur, architecte, rédacteur, exécuteur, vérificateur, visualiseur), il convertit des instructions en langage naturel en analyses FEA exécutées avec Abaqus. Validé sur 50 problèmes avec 86% de succès.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.AI·

TIGER: Traceable Inference with Graph-Based Evidence Routing for Mitigating Hallucinations in Multimodal Generation

TIGER est une méthode d'inférence pour réduire les hallucinations dans la génération multimodale. Elle construit un graphe d'observations à partir de l'entrée et un graphe de claims à partir de la sortie, puis assigne des scores de risque basés sur le support et les conflits. Le modèle répare les claims à haut risque sans modifier le backbone. Convergence garantie avec réduction géométrique du risque.

RaisonnementVisionPapers
SIG
78
HYP
22
arXiv cs.AI·

Closed-Loop Neural Activation Control in Vision-Language-Action Models

CTRL-STEER propose un cadre de contrôle en boucle fermée pour les modèles Vision-Language-Action (VLA). Au lieu d'utiliser un coefficient de direction fixe, la méthode adapte dynamiquement la force d'intervention via des contrôleurs PID ou par apprentissage par renforcement. Tests sur OpenVLA et LIBERO montrent une meilleure stabilité et un meilleur compromis entre direction et succès de tâche.

VisionAgents IAReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

FETCH, un classifier pour le triage juridique automatisé, génère des questions de suivi via un ensemble économique de LLMs. L'étude montre que les modèles bon marché performent bien en classification, mais la génération de questions en langage clair de qualité requiert GPT-4 ou supérieur. Le prompt engineering seul ne suffit pas ; les évaluations LLM-as-judge divergent des évaluations humaines.

GPTOpenAIPrompt engineering
SIG
72
HYP
15
arXiv cs.AI·

Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture

Papier de synthèse proposant l'Intelligent Computing Architecture Model (ICAM), un cadre à 6 couches pour l'informatique model-native. Mappe les concepts d'architecture informatique classique aux systèmes LLM (gestion de cache, contexte, agents). Introduit trois lois de conception : Semantic Locality Law, Context Budget Law, Agent Speedup Law. Distingue plan d'exécution probabiliste et plan de contrôle déterministe.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary

Les modèles decoder-only atteignent une limite informatique dans les tâches de suivi d'état déterministe au-delà d'un horizon d'~25 étapes. Un théorème borne la capacité d'attention à O(H·log(L/H)·√dh). Sur 12 modèles et 8 domaines (SWE-Bench, WebArena, SQL), la délégation à des outils atteint 86-94% vs 24-42% pour le raisonnement neural pur. Fine-tuning n'améliore que <5%, confirmant un plafond architectural.

RaisonnementAgents IABenchmarks
SIG
78
HYP
25
arXiv cs.AI·

VESTA: Visual Exploration with Statistical Tool Agents

VESTA est un framework d'agents statistiques équipant les VLMs d'une boîte à outils exploratoire dynamique pour affiner les modèles quantitatifs. Évalué sur DAWN (benchmark de modélisation de distributions et séries temporelles), VESTA surpasse les systèmes antérieurs, notamment sur tâches complexes en astronomie (fonctions de masse initiale, signaux d'ondes gravitationnelles).

Agents IAVisionRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

SDR: Set-Distance Rewards for Radiology Report Generation

Nouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Reinforcement learningVisionGénération de code
SIG
78
HYP
15
arXiv cs.AI·

TAPS: Target-Aware Prefix Tree Selection for Diffusion-Drafted Speculative Decoding

TAPS propose une méthode de sélection de préfixes consciente de la cible pour le décodage spéculatif avec diffusion. En convertissant les marginales de diffusion en estimations d'acceptation conditionnées au chemin, TAPS sélectionne un sous-arbre compact sous budget de vérification fixe. Résultats : 7.9x speedup sans perte vs décodage autorégressif vanilla, 1.36x et 1.74x vs DFlash et DDTree.

Génération de codeRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Threshold-Based Exclusive Batching for LLM Inference

Article arXiv sur l'optimisation du batching pour l'inférence LLM. Les auteurs montrent que le mixed batching (MB) n'est pas toujours optimal : sur GPUs à bande passante limitée (RTX PRO 6000), le batching exclusif (EB) surpasse MB de 41,9% en débit. Ils proposent EB+, un scheduler hybride qui bascule dynamiquement entre EB et MB selon la bande passante GPU et la composition de la charge.

InfrastructureBenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

KACE: Knowledge-Adaptive Context Engineering for Mathematical Reasoning

KACE sépare stockage et utilisation du contexte pour le raisonnement mathématique. Un arbre épistémique stratifié par difficulté et domaine est construit hors ligne via boucle d'auto-réflexion. À l'évaluation, l'auto-cohérence hiérarchisée classe dynamiquement les problèmes et récupère sélectivement les cartes pertinentes. Sur AIME 2025 : 62,2% de précision (+10,4 points vs Best-of-5).

RaisonnementPrompt engineeringBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs

Des chercheurs montrent que les traces de raisonnement cachées des LLM peuvent être extraites via Reasoning Exposure Prompting (REP), une méthode de prompting légère utilisant des démonstrations générées par modèles fantômes. REP expose les traces internes même quand les systèmes déployés les masquent intentionnellement, préservant les signaux de raisonnement utiles pour la distillation.

RaisonnementPrompt engineeringFine-tuning
SIG
75
HYP
35
arXiv cs.AI·

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

CAST est une méthode d'auto-distillation sans réponse de référence pour GRPO (Group Relative Policy Optimization). Elle utilise un auto-enseignant sans gradient pour façonner les avantages au niveau des tokens selon la correction des trajectoires, avec inversion bidirectionnelle des signaux et avantages bornés pour les groupes à variance zéro. Améliore le raisonnement mathématique.

Reinforcement learningRaisonnementGénération de code
SIG
72
HYP
18
arXiv cs.AI·

MindZero: Learning Online Mental Reasoning With Zero Annotations

MindZero est un framework d'apprentissage par renforcement auto-supervisé qui entraîne des modèles multimodaux (MLLMs) à inférer les états mentaux humains sans annotations. Le modèle est récompensé pour générer des hypothèses d'états mentaux maximisant la vraisemblance des actions observées. Après entraînement, l'inférence devient rapide et surpasse les méthodes basées sur des planificateurs.

RaisonnementReinforcement learningAgents IA
SIG
72
HYP
25
arXiv cs.AI·

Capability Self-Assessment: Teaching LLMs to Know Their Limits

Les LLM modernes surestiment systématiquement leurs capacités et tentent de résoudre des requêtes impossibles. Des chercheurs proposent Capability Self-Assessment (CSA), formalisé comme un problème d'apprentissage par renforcement, pour enseigner aux modèles à reconnaître leurs limites. L'RL surpasse le fine-tuning supervisé, préserve les capacités originales et généralise hors-distribution.

Reinforcement learningAlignementÉvaluations
SIG
78
HYP
22
arXiv cs.AI·

From Noise to Control: Parameterized Diffusion Policies

Parameterized Diffusion Policy (PDP) conditionne les politiques de diffusion sur des paramètres continus dans une variété de comportements apprise. Cette approche permet l'interpolation fluide entre stratégies et l'adaptation efficace à de nouvelles contraintes sans mise à jour des poids. Résultats améliorés sur benchmarks multimodaux en simulation et robots réels.

RobotiqueReinforcement learningPapers
SIG
72
HYP
25
arXiv cs.AI·

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

Preference Delta Aggregation (PDA) agrège des signaux de préférence faibles issus de paires de modèles (ex: Qwen3 4B vs 1.7B) via fusion de LoRA. Geometric Alignment Merging (GAM) aligne les sous-espaces d'adaptateurs avant agrégation. Sur benchmarks de raisonnement et recherche agentique, PDA+GAM améliore Qwen3 8B de +6,8 et +7,3 points respectivement.

QwenFine-tuningReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

Méthode OPCD pour améliorer les grands modèles via critiques faibles. Au lieu d'utiliser des superviseurs faibles comme annotateurs, on les emploie comme critiques pour guider les révisions. La distillation progressive filtre les critiques de qualité et les intègre au modèle fort via signaux d'auto-enseignement adaptatifs. Résultats sur benchmarks de raisonnement et alignement.

RaisonnementAlignementReinforcement learning
SIG
72
HYP
25
arXiv cs.AI·

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Étude sur l'auto-évolution des harnesses (prompts, skills, mémoires, outils) dans les agents LLM. Analyse deux capacités : harness-updating (produire des mises à jour utiles) et harness-benefit (en bénéficier). Résultats : harness-updating est indépendant de la capacité de base (Qwen3.5-9B rivalise avec Claude Opus), tandis que harness-benefit suit une courbe non-monotone (modèles mid-tier bénéficient le plus).

Agents IAPrompt engineeringBenchmarks
SIG
75
HYP
15