Page 45 sur 192

ToutHaut signalRécent

7679 articles

UCSF-PDGM-VQA: Visual Question Answering dataset for brain tumor MRI interpretation

UCSF-PDGM-VQA est un benchmark VQA clinique pour l'interprétation d'IRM cérébrale tumorale. Dataset de 2 387 paires QA sur 473 études de gliome. Évaluation de 6 VLMs : tous échouent sur les IRM multi-séquences 3D, souffrent de modality collapse et sur-dépendance aux priors linguistiques.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

ManiSoft est un benchmark pour la manipulation vision-langage avec bras robotiques souples. Il inclut un simulateur couplant dynamiques soft-body réalistes et interactions contact-riches, 4 tâches de contrôle déformable, et 6 300 scènes avec trajectoires expertes. Les tests de 3 modèles révèlent des performances prometteuses en scènes nettes mais dégradation substantielle sous randomisation.

Vision Robotique Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

ClawGym: A Scalable Framework for Building Effective Claw Agents

ClawGym est un framework pour développer des agents capables d'exécuter des workflows multi-étapes sur fichiers locaux et outils persistants. Les auteurs construisent ClawGym-SynData (13.5K tâches synthétisées), entraînent ClawGym-Agents via fine-tuning supervisé et RL, et proposent ClawGym-Bench (200 instances) pour l'évaluation.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Babel est une méthode de jailbreak black-box qui exploite une vulnérabilité dans l'alignement de sécurité des LLM : la sécurité repose sur peu de têtes d'attention éparses, laissant l'espace représentationnel faiblement surveillé. Via obfuscation optimisée et raffinement itératif, Babel atteint 82,67% de succès sur GPT-4o et 78,33% sur Claude-3-5-haiku en ~40 requêtes.

Sécurité IA Alignement GPT

SIG

HYP

arXiv cs.AI·19 mai

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

RoboMME est un benchmark standardisé pour évaluer la mémoire dans les modèles vision-langage-action (VLA) pour la manipulation robotique long-horizon. 16 tâches testent la mémoire temporelle, spatiale, d'objets et procédurale. 14 variantes VLA augmentées de mémoire construites sur π0.5 montrent que l'efficacité dépend fortement de la tâche.

Robotique Vision Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Code as Agent Harness

Nouvelle perspective sur les systèmes d'agents IA : le code comme infrastructure centrale. Cet article de recherche organise un cadre unifié autour de trois couches — interface de harness (code connectant raisonnement et action), mécanismes (planification, mémoire, feedback), et passage à l'échelle multi-agents. Applications : assistants de code, automatisation GUI/OS, agents incarnés, découverte scientifique.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.LG·19 mai

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Étude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant masque sélectivement les actions légales de la victime. Expériences sur poker (6 à 5 531 états) et deux domaines non-poker : le masquage appris cause plus de dégâts que le masquage aléatoire, persiste sur Q-learning/PPO/NFSP/DQN, transfère entre agents et s'amplifie en auto-jeu.

Reinforcement learning Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

From Static Risk to Dynamic Trajectories: Toward World-Model-Inspired Clinical Prediction

Framework unifié pour la modélisation de trajectoires de maladie en IA clinique, intégrant prédiction factuelle, estimation contrefactuelle et évaluation de politiques. Aborde les biais de traitement, les confondeurs variables dans le temps et les biais d'observation pour transformer les prédictions statiques en estimations dynamiques sensibles au traitement.

Raisonnement Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration - Learning from Cheap, Optimizing Expensive

AutoLLMResearch propose un framework agentic pour automatiser la configuration d'expériences LLM coûteuses. Le système apprend de petites expériences bon marché pour extrapoler vers des configurations prometteuses en haute-fidélité. LLMConfig-Gym fournit un environnement multi-fidélité avec >1M heures GPU d'expériences vérifiées.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

NavOne reformule la navigation vision-langage (VLN) comme un problème de planification globale en une seule étape sur des cartes top-down. Le framework prédit directement les probabilités de chemin denses via un passage forward unique, avec un accélérateur de 8x vs méthodes basées cartes et 80x vs méthodes égocentristes. Nouvel ensemble R2R-TopDown.

Vision Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Key-Gram: Extensible World Knowledge for Embodied Manipulation

Key-Gram est un framework de mémoire conditionnelle qui sépare les connaissances linguistiques des raisonnements visuels pour le contrôle robotique. Il décompose les instructions en key-grams, récupère des priors linguistiques via lookup hashé O(1), et les injecte dans les couches cachées. Gains de 29.5% sur RoboTwin2.0, 35.8% sur LIBERO-Plus, 15.4% sur tâches réelles.

Robotique Vision Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Heterogeneous Information-Bottleneck Coordination Graphs for Multi-Agent Reinforcement Learning

HIBCG propose une méthode théorique pour apprendre des graphes de coordination creux en apprentissage multi-agent. Via l'information bottleneck, elle détermine quelles arêtes exister et leur capacité de message, avec garanties formelles sur la topologie apprise et allocation différenciée par groupe d'agents.

Multi-agents Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·19 mai

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG étend la génération augmentée par récupération (RAG) à des corpus hétérogènes multi-modaux (texte, images, vidéos) avec granularités variables. Le framework propose un routage conscient de la modalité pour éviter le biais intra-modal et récupérer dynamiquement dans le corpus approprié. Validation sur 10 benchmarks multi-modaux.

RAG Vision Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

STT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLMs à détecter et s'adapter aux changements spatio-temporels. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL online.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

TierCheck: Tiered Checkpointing for Fault Tolerance in Large Language Model Training

TierCheck est un système de sauvegarde en trois niveaux pour l'entraînement de LLM. Il maintient des points de contrôle différentiels légers en mémoire locale/pair pour récupération rapide, migre asynchronement les points de base vers le stockage distant, et garantit la cohérence globale sans ralentir l'entraînement. Sur modèles jusqu'à 40B paramètres, il réduit le temps de sauvegarde à moins de 10s.

Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Predictive Prefetching for Retrieval-Augmented Generation

Framework asynchrone pour RAG qui prédit quand et quoi récupérer via trois composants (retrieval predictor, context monitor, query generator). Réduit la latence de 43,5% et le time-to-first-token de 62,4% tout en maintenant la qualité des réponses.

RAG Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Interactive Benchmarks

Nouvelle approche d'évaluation Interactive Benchmarks pour tester le raisonnement des modèles via interaction multi-tour budgétée. Deux cadres : Interactive Proofs (logique, UI2Html, mathématiques avec feedback objectif) et Interactive Games (raisonnement stratégique). Révèle des lacunes importantes dans les capacités interactives actuelles.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

SkillJect: Effectively Automating Skill-Based Prompt Injection for Skill-Enabled Agents

SkillJect automatise les attaques par injection de prompts contre les agents LLM utilisant des skills modulaires. Le framework cache des payloads malveillants dans des scripts auxiliaires et réécrit les instructions SKILL.md via une stratégie de préambule. Une boucle multi-agent (Attack/Victim/Evaluate) optimise l'efficacité de l'attaque sur plusieurs plateformes et modèles.

Agents IA Sécurité IA Prompt engineering

SIG

HYP

arXiv cs.AI·19 mai

The Alpha Illusion: Reported Alpha from LLM Trading Agents Should Not Be Treated as Deployment Evidence

Étude critique sur les agents de trading basés sur LLM (FinCon, FinMem, TradingAgents, FinAgent, QuantAgent, FLAG-Trader). Les Sharpe ratios rapportés ne constituent pas une preuve de déploiement viable : contamination temporelle, frictions non modélisées et calibration prédictive insuffisante invalident les réclamations. Propose protocole P1-P6 et architecture modulaire avec LLM comme interface d'audit.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

LPG: Balancing Efficiency and Policy Reasoning in Latent Policy Guardrails

LPG (Latent Policy Guardrail) est un framework de sécurité pour LLM qui adapte les politiques de sécurité à l'inférence sans réentraînement. Il compresse le raisonnement en 10 tokens latents, atteint 84,5% de précision et 77,9% F1 sur les benchmarks, tout en étant 11× plus rapide que Qwen3-4B-Thinking.

Sécurité IA Alignement Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Double-Calibration: Towards Reliable LLMs via Calibrating Knowledge and Reasoning Confidence

DoublyCal, un framework de double-calibration, améliore la fiabilité des LLM en quantifiant l'incertitude épistémique dans les preuves récupérées et le raisonnement. Un modèle proxy léger génère des preuves de Knowledge Graph avec confiance calibrée, guidant un LLM black-box vers des prédictions plus précises et bien-calibrées.

Raisonnement RAG Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Beyond Imperfect Alternatives with Rulemapping: A Neuro-Symbolic Case Study on Online Hate Speech

Étude neuro-symbolique comparant LLMs contraints par des scaffolds logiques déterministes (Rulemapping) versus prompting libre pour la modération de contenu haineux selon le code pénal allemand (§130). Rulemapping atteint précision 0.80-0.86 et rappel 0.82-0.89 contre 0.34-0.49 en prompting non contraint, éliminant la confusion entre offense morale et illégalité.

Raisonnement Sécurité IA Régulation

SIG

HYP

arXiv cs.AI·19 mai

When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution

LongAct est un benchmark pour évaluer la planification autonome d'agents dans des tâches ménagères longues durée spécifiées en langage naturel. HoloMind, un agent basé VLM avec planificateur hiérarchique DAG, mémoire spatiale multimodale et mémoire épisodique, atteint 59% de complétion d'objectifs avec GPT-5 et Qwen3-VL.

Benchmarks Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Adaptive Layerwise Perturbation (ALP) résout les problèmes off-policy en RL pour LLM en injectant des perturbations apprises dans les états cachés de chaque couche. Cela réduit les ratios d'importance à queue lourde, stabilise l'entraînement et améliore les performances sur des tâches de raisonnement mathématique et multi-tour.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

The Alien Space of Science: Sampling Coherent but Cognitively Unavailable Research Directions

Un framework utilise des modèles de langage pour identifier des directions de recherche « alien » — cohérentes avec la littérature existante mais improbables sous la distribution actuelle des chercheurs. Sur 16 068 papiers IA/NLP, la méthode explore 3,5-7× plus d'espace conceptuel que les baselines tout en maintenant la cohérence scientifique.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Mitigating Conversational Inertia in Multi-Turn Agents

Les LLM montrent une « inertie conversationnelle » en scénarios multi-tours : ils imitent excessivement leurs réponses précédentes au lieu d'explorer. Les auteurs identifient ce biais via analyse d'attention et proposent Context Preference Learning pour favoriser les réponses à faible inertie. Validation sur 8 environnements d'agents.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

WASIL: In-the-Wild Arabic Spoken Interactions with LLMs

WASIL est un dataset de 8 529 tours d'interactions vocales en arabe avec des LLMs, incluant audio, hypothèses ASR, réponses et retours utilisateur (14,2% de dislikes). Couvre l'arabe standard et 4 dialectes majeurs. Permet d'isoler les erreurs ASR des problèmes d'answerabilité intrinsèque via annotation et évaluation multi-juge.

Voix Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Beyond Accuracy: Robustness, Interpretability and Expressiveness of EEG Foundation Models

Étude comparative de 6 modèles fondamentaux EEG sur 8 datasets, au-delà de la précision brute. Analyse de robustesse (bruit, dropout de canaux), interprétabilité via Attention-Aware Layer-Wise Relevance Propagation, et expressivité par probing. Résultats : pas de modèle dominant tous les modes de défaillance ; les modèles se concentrent sur les régions cérébrales pertinentes mais décodent mal le contenu corrompu.

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

StructLens analyse l'organisation interne des représentations dans les modèles de langage via des arbres couvrants maximaux construits sur les flux résiduels. Le framework révèle que les couches intermédiaires organisent fortement les tokens proches, et que les unités locales émergent avant les unités plus larges durant le pré-entraînement.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée couvrant 10 catégories de tâches sur OmniGibson. Les agents doivent combiner perception, locomotion et manipulation pour accumuler activement des preuves. Les expériences montrent que l'exploration active surpasse les approches passives, mais les défaillances proviennent surtout de mauvais choix d'action plutôt que de perception faible.

Vision Robotique Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Probing Persona-Dependent Preferences in Language Models

Étude des préférences internes dans les LLM via sondes linéaires sur les activations résiduelles. Les chercheurs identifient un vecteur de préférence partagé sur Gemma-3-27B et Qwen-3.5-122B, qui prédit et contrôle causalement les choix du modèle. Ce vecteur reste stable même quand le modèle adopte des personas radicalement différentes (assistant bienveillant vs persona malveillante).

Gemini Qwen Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Rover: Context-aware Conflict Resolution with LLM

Rover est un système de résolution de conflits de fusion de code combinant analyse de programme et LLM. Il introduit Multi-layer Code Property Graph (MtCPG) pour capturer les dépendances inter-fichiers et utilise des algorithmes de connectivité graphique pour créer des contextes significatifs. Évaluation : Rover surpasse les LLM seuls, MergeGen et WizardMerge aux niveaux caractère, lexical et sémantique.

Génération de code Raisonnement Outils

SIG

HYP

arXiv cs.AI·19 mai

Is VLA Reasoning Faithful? Probing Safety of Chain-of-Causation

Étude systématique de la fidélité du raisonnement dans les modèles VLA (Vision-Language-Action) de conduite autonome. Analyse de 300 inférences Alpamayo-R1-10B sur 100 scénarios PhysicalAI-AV révèle : fidélité de raisonnement de 42,5%, 94 piétons manqués, fragilité de trajectoire de 97,7% sous perturbations visuelles, cohérence raisonnement-action de 48,3%. Propose une architecture de sécurité à quatre composants.

Vision Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

A2RBench est un pipeline automatisé pour générer des benchmarks de raisonnement abstrait vérifiables formellement. Via vérification programmatique (cycle consistency), il élimine les hallucinations et crée des variations de tâches à grande échelle. Les évaluations montrent que les LLMs actuels obtiennent 39,8% vs 68,5% pour les humains, et peinent sur les tâches 3D complexes.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

STRIDE-AI: A Threat Modeling Framework for Generative AI Security Assessment

STRIDE-AI est un framework de threat modeling pour évaluer la sécurité des systèmes IA générative. Il comble le fossé entre les standards NIST AI RMF et OWASP LLM Top 10, définit un cycle d'évaluation en 6 phases, et s'opérationnalise via un outil web. Une validation sur un chatbot LLM déployé réduit le taux de succès des attaques de 80% à 15%.

Sécurité IA Alignement Régulation

SIG

HYP

arXiv cs.AI·19 mai

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

SWIM aligne les représentations vision-langage pour la compréhension fine d'objets vidéo via prompts textuels seuls. Utilise la supervision de masques en entraînement pour guider l'attention cross-modale. Construit NL-Refer, dataset enrichi avec expressions référentes précises. Surpasse les méthodes basées prompts visuels sur les benchmarks.

Vision RAG Embeddings

SIG

HYP

arXiv cs.CL·19 mai

Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study

CLUES, un framework pour Text-to-SQL clinique, décompose l'incertitude sémantique en scores d'ambiguïté et d'instabilité via le complément de Schur d'une matrice de graphe bipartite. Testé sur AmbigQA/SituatedQA et un benchmark clinique, il surpasse Kernel Language Entropy et permet un triage efficace : 51% des erreurs dans 25% des requêtes.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models

Guided Topology Diffusion (GTD) utilise des modèles de diffusion de graphes pour générer dynamiquement les topologies de communication optimales dans les systèmes multi-agents LLM. Le framework itératif, guidé par un modèle proxy prédisant récompenses multi-objectifs (précision, utilité, coût), adapte les topologies aux tâches sans optimisation par gradient, surpassant les approches statiques.

Multi-agents Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Imperfect World Models are Exploitable

Étude formelle de l'exploitation de modèles du monde imparfaits en RL. Les auteurs définissent l'exploitation comme une divergence entre les préférences de politique du modèle et de l'environnement réel. Ils prouvent que l'exploitation est essentiellement inévitable sur de grands ensembles de politiques et établissent un lien théorique avec le reward hacking.

Reinforcement learning Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

ShareChat: A Dataset of Chatbot Conversations in the Wild

ShareChat est un corpus de 142 808 conversations (660 293 tours) collectées sur ChatGPT, Perplexity, Grok, Gemini et Claude entre avril 2023 et octobre 2025. Le dataset préserve les affordances natives (citations, traces de raisonnement, artefacts code) sur 95 langues et permet d'analyser les différences cross-platform en satisfaction utilisateur, stratégies de citation et latence.

Benchmarks Évaluations GPT

SIG

HYP