RSS

arXiv cs.AI

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench évalue la capacité des agents IA à gérer des tâches complexes sur long terme en simulant l'exploitation d'une startup pendant 500 jours. L'agent doit gérer tarification, marketing, budgétisation via une interface Python. Seuls Claude Opus 4.8 et GPT-5.5 dépassent le bilan initial d'1M$, sans profit constant.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim est un benchmark de prévision basé sur des simulations du jeu Freeciv. Les modèles reçoivent un état de jeu structuré et prédisent des états futurs cachés ; le benchmark continue la simulation pour évaluer les prévisions. Permet des questions à horizons arbitraires, des mondes contrefactuels et des événements rares.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Searching for Synergy in Shared Workspace Human-AI Collaboration

Étude sur la collaboration humain-IA en espace partagé via Collaborative Gym et DiscoveryBench. Ajouter des collaborateurs améliore les performances seulement avec une structure de coordination. Un scaffolding combinant mémoire partagée et validation humaine (HITL gates) augmente la performance, particulièrement en équipes de trois, en clarifiant les responsabilités.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.AI·18 juin

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb est un benchmark de 372 648+ instances pour évaluer le raisonnement abductif défaisable dans les modèles de langage. Les meilleurs modèles frontier atteignent 65% en conditions standard mais chutent à 23,5% en évaluation robuste au rendu, contre 100% pour un solveur logique symbolique. Le benchmark inclut trois niveaux de difficulté avec vérification polynomiale des hypothèses.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Optimizing Lithium Production Decisions under Geological, Demand, and Pricing Uncertainties: A POMDP Framework for Multi-Objective Decision Making

Un cadre POMDP optimise les décisions de production de lithium en intégrant incertitudes géologiques, de prix et de demande. Les solveurs POMDP surpassent les heuristiques humaines en s'adaptant dynamiquement aux régimes de prix (statique, linéaire, exponentiel, stochastique) et en séquençant optimalement exploration, production et choix technologique.

Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·18 juin

What Must Generalist Agents Remember?

Article théorique sur la mémoire des agents généralistes. Démontre qu'un agent performant sur plusieurs domaines doit maintenir des distributions mémoire distinctes aux goulots d'étranglement observationnels. La mémoire permet la désambiguïsation de domaine, la reconstruction de dynamiques de transition et la planification.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·18 juin

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM est un pipeline LLM agentic déployé chez DiDi pour extraire des profils utilisateurs sémantiques à partir de logs comportementaux massifs. Le système utilise 27 outils analytiques pour miner les données et génère des profils alignés sur l'utilité prédictive, atteignant +6.14% d'amélioration AUC et +0.47% de GMV en test A/B.

Agents IA Llama RAG

SIG

HYP

arXiv cs.AI·18 juin

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

WorldLines est un benchmark pour agents incarnés sur long horizon testant la mémoire dans des environnements domestiques dynamiques. Le dataset inclut traces temporelles avec dialogues, actions, changements d'état d'objets/appareils. ObsMem, un framework de mémoire basé observateur, maintient des mémoires conscientes de la visibilité et des traces d'état pour des décisions informées.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

Generative-Model Predictive Planning for Navigation in Partially Observable Environments

BeliefDiffusion combine diffusion models et Model Predictive Control pour la navigation en environnements partiellement observables. Le framework génère des distributions de croyance multimodales et planifie des stratégies de navigation efficaces. Expériences sur cartes synthétiques : surpasse RL et autres approches génératives en taux de succès et efficacité de trajectoire.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench est un benchmark d'évaluation de la sécurité des LLM dans les workflows AI4Science. Il couvre 7 disciplines, 31 sous-disciplines et 10 dimensions de risque. Les auteurs évaluent des LLM mainstream et orientés science pour diagnostiquer les lacunes de sécurité.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·18 juin

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

RTSGameBench est un benchmark pour évaluer le raisonnement stratégique des Vision-Language Models (VLMs) dans des jeux de stratégie en temps réel. Basé sur Beyond All Reason, il propose des évaluations multi-scénarios, des mini-jeux diagnostiques ciblant des compétences spécifiques, et un framework auto-évolutif. Les VLMs actuels échouent sur la coordination multi-agents et les tâches complexes.

Vision Raisonnement Multi-agents

SIG

HYP

arXiv cs.AI·18 juin

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception propose un cadre d'apprentissage par renforcement progressif pour la détection de tromperie multimodale interprétable. Utilisant des MLLMs, il transforme la classification binaire en processus de raisonnement explicite via Chain of Thought. VAC-GRPO avec curriculum learning stratifié en 4 niveaux de difficulté atteint SOTA sur les benchmarks.

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.AI·18 juin

Towards an Agent-First Web: Redesigning the Web for AI Agents

Papier proposant une refonte du web pour intégrer les agents IA comme citoyens de première classe. Trois couches : accès (headers HTTP, contenu dual human/agent), économie (modèle token-based, intent-based tiers), contenu (ATML, chaîne cryptographique de provenance contre la récursion épistémique). Dix principes de design pour un internet agent-first.

Agents IA Infrastructure Régulation

SIG

HYP

arXiv cs.AI·18 juin

Analysing drivers and interdependencies in European electricity markets using XAI

Étude combinant réseaux de neurones profonds et XAI (SHAP, SSHAP) pour analyser 39 zones de soumission électriques européennes. Identifie l'énergie solaire comme facteur disproportionné de formation des prix, les prix du gaz comme moteur dominant, et les interconnexions comme révélatrices de l'interdépendance des marchés.

Évaluations Papers

SIG

HYP

arXiv cs.AI·18 juin

Human-AI Coevolution Dynamics: A Formal Theory of Social Intelligence Emergence Through Long-Term Interaction

Nouvelle théorie formelle (HACD-H) modélisant l'émergence de l'intelligence sociale dans l'interaction humain-IA long-terme. Framework unifié intégrant adaptation émotionnelle, mémoire sociale et cohérence de personnalité. Étude sur 14,700 tours de conversation révèle corrélation négative entre intelligence sociale et énergie cognitive (r=-0.391, p<0.001), avec patterns de transition développementale.

Raisonnement Agents IA Papers

SIG

HYP

arXiv cs.AI·18 juin

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Safety Reflection Pretraining intègre des réflexions de sécurité courtes dans les corpus de préentraînement pour établir l'auto-surveillance directement dans la modélisation du langage. Sur des modèles 1.7B préentraînés sur FineWeb-Edu, la méthode améliore la précision de classification de sécurité et réduit substantiellement les taux de succès des attaques en inférence et fine-tuning.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.AI·18 juin

TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

TxBench-PP est un benchmark vérifié pour évaluer les agents IA sur la pharmacologie préclinique de petites molécules. 100 évaluations couvrent mécanisme d'action, pharmacodynamique, engagement composé-cible et sécurité. Sur 16 configurations (11 modèles, 4800 trajectoires), Claude Opus 4.8 atteint 59.3% de réussite, GPT-5.5 55.3%. Aucun système ne maîtrise fiablement ces décisions.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.AI·18 juin

NeSyCat Torch: A Differentiable Tensor Implementation of Categorical Semantics for Neurosymbolic Learning

NeSyCat Torch unifie les sémantiques neurosymboliques (classique, floue, probabiliste, neurale) sous une définition unique de la vérité paramétrée par des monades. Implémenté en PyTorch, JAX et HaskTorch, le framework interprète les symboles computationnels via réseaux de neurones. Sur MNIST addition, surpasse LTN et DeepProbLog en vitesse/précision.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT est un framework agentic-RAG modulaire qui réduit les hallucinations des VLMs via une pipeline fermée à 5 étapes (Extractor, Retriever, Solver, Citation Injector, Verifier). Les réclamations non fondées déclenchent une re-retrieval ciblée. 23 métriques composantes et CaVeScore mesurent la fidélité des citations et l'ancrage multimodal. Résultats : 87,1% accuracy sur ScienceQA, 55,2% sur MMMU.

Vision RAG Agents IA

SIG

HYP

arXiv cs.AI·18 juin

R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning

R2D-RL connecte le simulateur RoboCup 2D Soccer (RCSS2D) à des workflows Python d'apprentissage par renforcement multi-agent via mémoire partagée. L'environnement supporte l'entraînement full-field et par scénarios, avec espaces d'action discrets/hybrides, masquage d'actions, reward shaping basé sur EPV, et exécution parallèle. Benchmarks 11-vs-11 et résultats de base fournis.

Multi-agents Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Xcientist est un système qui externalise la synthèse de recherche et la validation expérimentale des scientifiques IA en processus inspectables et gouvernés par contrats. Il organise les preuves littéraires, états d'idées, plans d'implémentation et traces de réparation comme artefacts persistants, éliminant la dérive de réclamation où les artefacts exécutables ne soutiennent plus le mécanisme initialement revendiqué.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Skill-Guided Continuation Distillation for GUI Agents

SGCD, un framework d'auto-amélioration itérative, résout le problème des états hors-trajectoire en GUI agents. Le système exécute d'abord une politique simple, puis utilise une politique guidée par des skills pour générer des continuations réussies. Sur OSWorld-Verified, SGCD améliore le taux de succès de trois modèles de base de 30% à plus de 50%.

Agents IA Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

Decoupled Search Grounding (DSG) découple la recherche du raisonnement via une passerelle compatible MCP. Sur SimpleQA, FreshQA et HotpotQA, DSG atteint 86,1% de précision (vs 87,7% natif) avec 91% de coût réduit et 68% de latence inférieure. En production e-commerce, DSG réduit le coût de recherche de 98% tout en maintenant la précision.

Agents IA MCP RAG

SIG

HYP

arXiv cs.AI·18 juin

ARIADNE: Agnostic Routing for Inference-time Adapter DyNamic sElection

ARIADNE est un framework sans entraînement pour sélectionner dynamiquement des adaptateurs au moment de l'inférence. Il représente chaque adaptateur par des centroïdes calculés à partir des embeddings de son ensemble d'entraînement. Testé sur Llama 3.2 1B avec 23 tâches NLP, il récupère 97,44% des performances optimales et atteint 89,7% de précision sur 44 tâches.

Fine-tuning Llama Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

User as Engram: Internalizing Per-User Memory as Local Parametric Edits

Nouvelle approche de personnalisation LLM : stocker les faits utilisateur comme édits locaux dans une table mémoire hashée (Engram) plutôt que via LoRA global. Réduit l'empreinte mémoire de 33 000x, améliore la précision du raisonnement indirect de 5,6x en moyenne, et permet de stacker plusieurs utilisateurs sans contamination croisée.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.AI·18 juin

X+Slides: Benchmarking Audience-Conditioned Slide Generation

X+Slides est un benchmark pour l'évaluation de la génération de diapositives adaptées à l'audience. Construit sur 113 sujets et 8 133 sondes, il mesure quatre métriques : couverture audience, couverture par domaine, efficacité et exactitude. Les tests sur DeepPresenter, SlideTailor et NotebookLM montrent des taux de couverture audience entre 0,594 et 0,853.

Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·17 juin

WallZero: Mastering the Game of WallGo with Strategic Analysis

WallZero, un agent basé sur AlphaZero, maîtrise WallGo, jeu de stratégie popularisé par la série Netflix The Devil's Plan (2025). Sur un plateau 7×7, l'agent bat des joueurs professionnels de Go avec 1.98x plus de territoire en moyenne. Les auteurs analysent l'équité du jeu et identifient les stratégies clés.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·17 juin

When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval

Un agent LLM auto-évolutif génère itérativement des règles de réécriture de requêtes pour améliorer BM25 en récupération de cas juridiques. Testé sur LeCaRD-v2 (benchmark chinois), le framework surpasse les baselines sans entraînement paramétrique, en exploitant l'évaluation automatique et l'élimination de règles inefficaces.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Skill-Constrained Model Predictive Control for Resilient Manufacturing Supply Chains

Article académique sur le contrôle prédictif pour chaînes d'approvisionnement manufacturières avec contraintes de compétences. Évalue un contrôleur MPC résolvant des programmes mixtes-entiers (production, inventaire, formation) sur des scénarios synthétiques SkillChain-Gym. Résultat : pas de domination universelle ; le contrôle prédictif aide si les goulots sont prévisibles assez tôt.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

MemTrace: Probing What Final Accuracy Misses in Long-Term Memory

MemTrace est un benchmark évaluant la mémoire long-terme des agents LLM selon trois dimensions : l'âge de la mémoire, le type de question (état actuel, antérieur, trajectoire) et les conditions de preuve. Sur 13 configurations testées, l'étude révèle que l'utilisation des preuves est le goulot d'étranglement principal (10× plus souvent disponibles que manquantes), non la récupération.

Agents IA Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Treatment Response Optimized Clinical Decision Support AI System via Digital Twin Simulation

Système IA d'aide à la décision clinique utilisant des jumeaux numériques (Digital Twin), l'estimation des effets de traitement et l'apprentissage par renforcement pour recommander des traitements adaptatifs en temps réel. Validation sur données synthétiques et dataset ovarian cancer TCGA. Module de sécurité basé sur règles avec escalade clinicienne pour cas d'incertitude.

Reinforcement learning Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

A Machine-Learned Comorbidity Index

Nouvel indice de comorbidité basé sur machine learning (MLCI) qui mappe les codes de diagnostic à un score unique en maximisant le critère nHSIC sur plusieurs résultats cliniques. Contrairement aux indices traditionnels (Charlson, Elixhauser), MLCI capture les relations non-linéaires risque-résultat et surpasse les baselines sur plusieurs datasets EHR.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·17 juin

Dissecting model behavior through agent trajectories

Étude de l'alignement harness-modèle via 138k trajectoires d'agents. Les auteurs introduisent Simple Strands Agent (SSA), un harness générique testant Claude, Gemini, GPT, Grok, Qwen sur SWE-Pro, SWE-Verified et Terminal-Bench-2. Au-delà des scores pass@1, l'analyse révèle des différences comportementales fines : fréquence d'édition, activité de test, transitions de phase.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·17 juin

LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline

Pipeline d'évaluation automatisée ancrée dans les programmes scolaires officiels. Utilise des LLM pour noter les réponses d'examen en s'appuyant sur des artefacts curriculaires (syllabus, descripteurs de performance, guides de notation). Résultats comparables aux tuteurs humains avec meilleure traçabilité vers les standards officiels.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack

DeepInsight est une infrastructure d'évaluation unifiée pour les systèmes Physical AI, couvrant trois ordres de magnitude d'opérateurs (du décodage de modèles fondamentaux à la simulation physique complète). Elle utilise trois abstractions invariantes (task, resource, result) pour préserver l'hétérogénéité des régimes tout en permettant le diagnostic cross-layer des régressions.

Raisonnement Évaluations Robotique

SIG

HYP

arXiv cs.AI·17 juin

FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness

FinAcumen est un agent de raisonnement financier multimodal qui accumule l'expérience des trajectoires antérieures dans une mémoire persistante. Le système améliore un modèle vision-langage 8B gelé sur quatre benchmarks financiers en utilisant l'activation sélective d'expériences et un environnement d'outils déterministe pour le calcul numérique et la vérification.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.AI·17 juin

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

SkillMigrator est un agent LLM qui apprend des compétences web réutilisables en les transférant entre sites via la correspondance de structure de mise en page plutôt que de références d'éléments spécifiques. Les compétences induites sont stockées comme des motifs d'interaction transférables (TIP). Sur WebArena et Mind2Web, SkillMigrator réduit le nombre d'actions LLM de 8-10% à taux de succès équivalent.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

FllumaOne: A Code-Native Multimodal CAD Dataset with Executable Programs and Kernel-Validated Feature Histories

FllumaOne est un dataset CAD multimodal de 100 000 modèles générés par programmes Python exécutables dans Flluma (système CAD basé OpenCASCADE). Chaque échantillon aligne le programme avec un arbre de features, une représentation STEP, un nuage de points et des descriptions en langage naturel. Un baseline Qwen2.5-Coder-1.5B atteint 99.98% de validité syntaxe Python et 99.14% de validité export STEP.

Génération de code Benchmarks Vision

SIG

HYP

arXiv cs.AI·17 juin

LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

LongWebBench est un benchmark évaluant la génération de pages web longues par des modèles vision-langage. Il contient 490 pages réelles pour l'évaluation structurelle et 507 tâches interactives sur 129 pages. Les expériences montrent que la fidélité structurelle se dégrade avec la longueur et que les générations visuellement plausibles échouent souvent à supporter les interactions multi-étapes.

Vision Benchmarks Agents IA

SIG

HYP

arXiv cs.AI·17 juin

Shattering the Autoregressive Curse: Dynamic Epistemic Entropy Orchestrated Erasable Reinforcement Learning for LLMs

E³RL, une méthode de reinforcement learning, résout le problème de propagation d'erreurs en raisonnement long-horizon des LLMs. En utilisant l'entropie croisée autoregressive comme signal d'incertitude épistémique, le modèle peut corriger localement les défauts logiques et réutiliser le cache KV. Sur AIME, les modèles 4B et 8B surpassent l'état de l'art de 5,3% et 6,5%.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

FlowRAG: Synergizing Explicit Reasoning via Frequency-Aware Multi-Granularity Graph Flow

FlowRAG améliore la récupération augmentée par graphe (GraphRAG) via un graphe hétérogène multi-granularité (passages, résumés, phrases, entités) et un module de flux pondéré par fréquence. Cela renforce le rappel sémantique et le raisonnement explicite sur les tâches multi-sauts complexes.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Structural Preservation and the Logical Expressiveness of Graph Neural Networks

Article théorique établissant des correspondances entre classes de GNN et fragments de logique modale graduée. Les auteurs caractérisent l'expressivité logique de GNN préservant des propriétés structurelles (plongements, homomorphismes injectifs, homomorphismes) via des fragments spécifiques de logique modale existentielle.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

Learn to Quantify Social Interaction with Constraints for Pedestrian Walking

Méthode pour quantifier les interactions sociales entre piétons en trajectoires longues. Approche probabiliste sans labels qui apprend directement des observations de trajectoires et s'intègre au modèle de prédiction. Évaluée sur benchmarks de prédiction de trajectoires.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

PreAct: Computer-Using Agents that Get Faster on Repeated Tasks

PreAct compile les exécutions réussies d'agents informatiques en petits programmes à états finis, rejoués 8.5-13x plus vite sans appels LLM par étape. Un validateur indépendant vérifie chaque programme avant stockage. Sur trois benchmarks (mobile, desktop, web), cette vérification évite l'accumulation de programmes défaillants (+1.75-2.6 tâches).

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search

DivInit améliore l'échelle de test pour la recherche agentic en diversifiant les requêtes initiales. Au lieu d'échantillonner k requêtes indépendantes en parallèle, la méthode génère n candidats puis sélectionne k graines diversifiées. Gains de 5-7 points sur QA multi-hop sans coût computationnel supplémentaire, validé sur 5 modèles open-weight et 8 benchmarks.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions

SkillChain-Gym est un benchmark pour la planification de production intégrant la gestion des compétences des travailleurs. L'environnement simule la dégradation des certifications, la formation et les contraintes de capacité. Évaluation de politiques de production, d'adaptation réactive et d'assurance statique sur 60 périodes avec métriques opérationnelles et de résilience.

Benchmarks Reinforcement learning Agents IA

SIG

HYP

arXiv cs.AI·17 juin

Nothing from Something: Can a Language Model Discover 0?

Étude sur la capacité des modèles de langage à découvrir le concept mathématique de zéro. Des modèles GPT-2 échouent sans entraînement supplémentaire, mais progressent après exposition à des dizaines/centaines d'exemples. Le préentraînement linguistique réduit de ~50% les exemples nécessaires.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

SpeechDx est un benchmark multi-tâches pour l'IA clinique basée sur la parole, couvrant 12 datasets et 27 tâches sur diverses conditions de santé. Les tâches sont structurées par étapes de production vocale (conceptualisation, formulation, articulation). L'évaluation de 12 encodeurs audio montre que les modèles de parole à grande échelle surpassent les modèles spécialisés, mais aucun ne généralise fiablement.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

Article arXiv proposant une architecture pour des réseaux d'agents autonomes distribués en peer-to-peer. Les auteurs identifient trois mécanismes clés : propagation sémantique pour la découverte de collaborateurs, identité vérifiable et réputation multi-sujets (MG-EigenTrust), et conception de mécanismes pour l'exécution de tâches ouvertes. Prototypes et simulations présentés.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.AI·17 juin

MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors

MapSatisfyBench est un benchmark pour évaluer les agents LLM intégrés aux services cartographiques. Il mesure leur capacité à identifier et satisfaire les besoins implicites des utilisateurs (facteurs de décision non explicités) à partir de données comportementales réelles. Les expériences montrent que les agents actuels réussissent bien sur les tâches explicites mais peinent à anticiper les facteurs implicites.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI — flux IA · Signal IA