Archives

mai 2026

3148 articles

arXiv cs.AI·

Helping Customers in Distress: An LLM-powered Agent that Converses, Probes, and Routes

Une banque développe un agent IA conversationnel pour trier les cas de fraude, arnaque et litiges. L'agent utilise des LLM pour poser des questions ciblées et router les clients vers les bons services. Évaluation via jumeaux numériques synthétiques simulant des dialogues réalistes. Résultat : +30,6% de précision en classification avec conformité garantie.

Agents IARaisonnementSécurité IA
SIG
78
HYP
25
arXiv cs.AI·

SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents

SkillGenBench est un benchmark pour évaluer les pipelines de génération de compétences pour agents LLM. Il couvre deux régimes : génération conditionnée par tâche et génération agnostique aux tâches, avec sources procédurales basées sur des dépôts ou documents. Les expériences révèlent une variation substantielle de performance et des modes d'échec distincts.

Agents IABenchmarksGénération de code
SIG
78
HYP
15
arXiv cs.AI·

Latent Action Reparameterization for Efficient Agent Inference

LAR (Latent Action Reparameterization) compresse l'espace d'actions des agents LLM en apprenant des actions latentes multi-étapes sémantiques. Cela réduit l'horizon de décision effectif et les coûts d'inférence tout en préservant l'expressivité. Sur plusieurs benchmarks, LAR diminue les tokens d'action et le temps d'inférence sans dégrader les taux de succès.

Agents IAGénération de codeRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State

Article proposant une évaluation basée sur les traces pour détecter quand un agent atteint ses KPI économiques mais viole les contraintes comportementales. Dans un cadre de tarification hôtelière avec état concurrent caché, les auteurs montrent que PPO seul échoue à préserver l'alignement avec le comportement de référence, tandis que le clonage comportemental et une RL avec historique préalable réussissent mieux.

Reinforcement learningÉvaluationsAgents IA
SIG
72
HYP
15
arXiv cs.AI·

AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

AMR-SD propose une auto-distillation asymétrique avec réflexion méta pour améliorer l'attribution de crédit au niveau des tokens dans l'entraînement par renforcement des LLM. La méthode compresse les signaux de diagnostic en indices socratiques auto-générés et utilise un gain d'information causale avec seuil ReLU asymétrique pour moduler les avantages par token, évitant l'effondrement en fin d'entraînement.

Reinforcement learningRaisonnementAlignement
SIG
72
HYP
18
arXiv cs.AI·

OCCAM: Open-set Causal Concept explAnation and Ontology induction for black-box vision Models

OCCAM est un framework pour expliquer les décisions des classifieurs d'images en boîte noire via des concepts visuels causaux. Il découvre des concepts en mode open-set, les localise par segmentation guidée par texte, et mesure leur contribution causale par interventions au niveau objet. OCCAM agrège les preuves interventionnelles pour induire une ontologie structurée révélant dépendances et biais systémiques.

VisionÉvaluationsRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

QSTRBench est un benchmark évaluant la capacité des LLM à raisonner sur le calcul spatial et temporel qualitatif (QSTR). Il couvre 9 calculi (Point Algebra, Allen's Interval Algebra, RCC-5/8/22, etc.) avec composition tables, relations inverses et voisinages conceptuels. Les modèles testés surpassent le hasard mais aucun ne répond correctement à tous les cas. RCC-22 s'avère le plus difficile.

BenchmarksRaisonnementÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

SD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant conditionné sur les résultats passés guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.

RaisonnementReinforcement learningRAG
SIG
78
HYP
15
arXiv cs.AI·

Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework

ProRL est un framework de reinforcement learning programmatique pour l'optimisation combinatoire (job shop scheduling). Il génère des politiques interprétables sous forme de programmes lisibles via un DSL spécialisé (DSL-S), explorant l'espace des programmes par recherche locale et optimisation bayésienne. Surpasse les heuristiques classiques et baselines DRL avec peu d'épisodes d'entraînement.

Reinforcement learningRaisonnementBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Article arXiv sur les limites spatiales des MLLMs en environnements multi-agents. Les modèles souffrent d'une « illusion cartésienne » : ils manquent de compréhension 3D topologique ancrée. Les auteurs proposent un module « Epistemic Sensory Bottleneck » avec une chaîne de pensée basée sur des ancres pour améliorer l'inférence spatiale de second ordre (Theory of Mind). Baseline zéro-shot : 42% de précision.

VisionMulti-agentsRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation

PPR-GDE, une méthode RL pour la génération ouverte, utilise des récompenses de préférence par paires et une diversité basée sur les groupes pour éviter l'effondrement de la diversité. Sans récompenses scalaires, elle préserve les évaluations subjectives et encourage la dispersion sémantique dans les groupes de réponses.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

Scalable Environments Drive Generalizable Agents

Position paper proposant que la généralisation des agents IA nécessite l'expansion de la distribution des environnements (rule-sets exécutables), au-delà du scaling de trajectoires ou de tâches. Taxonomie unifiée distinguant trajectory scaling, task scaling et environment scaling. Contraste entre générateurs programmatiques et world models génératifs pour construire des environnements scalables.

Agents IARaisonnementBenchmarks
SIG
45
HYP
25
arXiv cs.AI·

Generative AI and the Productivity Divide: Human-AI Complementarities in Education

Une expérience contrôlée randomisée montre que l'accès aux LLM augmente significativement la performance moyenne, mais les gains sont inégalement distribués. La compétence d'interaction IA (capacité à solliciter, filtrer et vérifier les outputs) prédit les bénéfices, pas le GPA. Une intervention de scaffolding (cartes conceptuelles) réduit la variance des résultats.

Reinforcement learningÉvaluationsAlignement
SIG
75
HYP
15
arXiv cs.AI·

POST: Prior-Observation Adversarial Learning of Spatio-Temporal Associations for Multivariate Time Series Anomaly Detection

POST propose un cadre d'apprentissage adversarial pour la détection d'anomalies dans les séries temporelles multivariées. Le modèle combine des réseaux de neurones graphiques avec une optimisation minimax sur les matrices d'adjacence pour résoudre la sur-généralisation spatiale. Évaluation sur benchmark public et synthétique avec localisation d'anomalies au niveau des canaux.

BenchmarksPapersRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

TaskGround: Structured Executable Task Inference for Full-Scene Household Reasoning

TaskGround est un framework d'inférence de tâches pour agents domestiques opérant sur des scènes complètes. Il structure le raisonnement en trois étapes : grounding (extraction de contexte pertinent), inférence (structure exécutable), exécution (séquences d'actions). Évalué sur FullHome (400 tâches), il améliore les taux de succès et rend Qwen3.5-9B compétitif avec GPT-5 tout en réduisant les coûts de tokens de 18x.

Agents IARaisonnementRobotique
SIG
78
HYP
25
arXiv cs.AI·

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

ConsumerSimBench, un benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro couvre seulement 47,8% des critères, révélant un écart majeur entre performance technique et intuition consommateur. Un pipeline multi-agent améliore MiMo-V2.5-Pro de 32,9% à 37,6%.

BenchmarksÉvaluationsMulti-agents
SIG
72
HYP
25
arXiv cs.AI·

New Insight of Variance reduce in Zero-Order Hard-Thresholding: Mitigating Gradient Error and Expansivity Contradictions

Nouvel algorithme de hard-thresholding d'ordre zéro avec réduction de variance pour les problèmes d'optimisation ℓ0. Résout la limitation du SZOHT sur le nombre de directions aléatoires en atténuant le conflit entre déviation des gradients ZO et expansivité de l'opérateur. Convergence améliorée validée sur régression ridge et attaques adversariales.

Reinforcement learning
SIG
72
HYP
15
arXiv cs.AI·

Unleashing LLMs in Bayesian Optimization: Preference-Guided Framework for Scientific Discovery

LGBO (LLM-Guided Bayesian Optimization) intègre le raisonnement sémantique des LLM dans chaque itération d'optimisation bayésienne via un mécanisme de préférence. Testé sur benchmarks en physique, chimie, biologie et science des matériaux, LGBO atteint 90% de la meilleure valeur en 6 itérations sur l'optimisation d'électrolytes Fe-Cr, contre 10+ pour BO standard.

RaisonnementBenchmarksPapers
SIG
78
HYP
25
arXiv cs.AI·

Efficient Lookahead Encoding and Abstracted Width for Learning General Policies in Classical Planning

Nouvelle approche pour l'apprentissage de politiques généralisées en planification classique via des réseaux de neurones graphiques relationnels (R-GNNs). Les auteurs introduisent un encodage efficace de la recherche lookahead IW et une abstraction relationnelle pour améliorer l'évolutivité sur le benchmark IPC 2023. Les résultats surpassent le planificateur classique LAMA.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Ethical Hyper-Velocity (EHV): A Provably Deterministic Governance-Aware JIT Compiler Architecture for Agentic Systems

EHV est une architecture de compilateur JIT intégrant la vérification formelle des politiques de gouvernance IA directement dans le pipeline d'inférence. Via CRDTs et TEEs, elle atteint un déterminisme formel sub-milliseconde (SMFD) et réduit la latence de gouvernance de jours à O(1), éliminant le compromis entre vélocité et conformité.

Agents IASécurité IAAlignement
SIG
45
HYP
65
arXiv cs.AI·

Visualizing the Invisible: Generative Visual Grounding Empowers Universal EEG Understanding in MLLMs

GVG (Generative Visual Grounding) utilise un modèle EEG-to-image pour traduire l'activité cérébrale en images visuelles, contournant l'alignement texte seul. Testé sur GVG-X-Omni (170M params tunés) et GVG-Janus (trimodal), le framework améliore la compréhension EEG et la génération visuelle en exploitant les priors visuels des MLLMs.

VisionMulti-agentsEmbeddings
SIG
72
HYP
35
arXiv cs.AI·

LAST-RAG: Literature-Anchored Stochastic Trajectory Retrieval-Augmented Generation for Knowledge-Conditioned Degradation Model Selection

LAST-RAG propose une méthode de sélection de modèles de dégradation stochastique pour l'estimation de la durée de vie utile restante (RUL). La méthode combine trajectoires observées et contexte domaine via récupération d'evidence d'une banque locale, avec un mécanisme RCRUS pour éviter l'élimination prématurée. Expériences montrent surperformance vs baselines statistiques et prognostiques.

RAGRaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

DuIVRS-2: An LLM-based Interactive Voice Response System for Large-scale POI Attribute Acquisition

DuIVRS-2 est un système de réponse vocale interactif basé LLM déployé chez Baidu Maps pour l'acquisition d'attributs POI à grande échelle. Utilisant augmentation de données guidée par FSM, génération sélective et mécanisme Chain-of-Thought, le système traite 0,4 million d'appels/jour avec 83,9% de taux de succès et 130ms de latence.

Agents IARaisonnementVoix
SIG
75
HYP
15
arXiv cs.AI·

KISS - Knowledge Infrastructure for Scientific Simulation: A Scaffolding for Agentic Earth Science

KISS introduit une infrastructure de connaissances (KI) pour permettre aux agents IA d'exécuter des simulations scientifiques complexes en Earth sciences. Sur 3 000 essais, les agents équipés de KI produisent des simulations valides à 84%, contre <40% sans KI. Un toolkit automatisé (KDT) a généré 119 KIs couvrant 14 domaines scientifiques, démontrant que l'expertise opérationnelle est structurable et extractible.

Agents IARaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective

Étude arXiv sur l'efficacité du fine-tuning supervisé (SFT) pour les LLM. Les auteurs montrent que le SFT supprime principalement les interactions bruitées entre tokens, mais acquiert rarement de nouvelles interactions fiables. La phase de débruitage est très brève ; le fine-tuning prolongé introduit des interactions surapprenantes. Implications pour l'early stopping et l'entraînement des LLM.

Fine-tuningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

Surface-Form Neural Sparse Retrieval: Robust Fuzzy Matching for Industrial Music Search

Amazon Music déploie un système de récupération neurale sparse robuste pour la recherche musicale à grande échelle. Le système gère les fautes de frappe, transpositions et variations phonétiques avec 91,4% de recall@10 sur 6M documents, surpassant les trigrammes (57,7%). Architecture inference-free avec tokenization subword granulaire (max 3 chars) et zéro latence en ligne.

RAGEmbeddingsRecherche vectorielle
SIG
78
HYP
15
arXiv cs.AI·

EGI: A Multimodal Emotional AI Framework for Enhancing Scrum Master Real-time Self-Awareness

EGI est un framework multimodal pour monitorer les émotions inconscientes des Scrum Masters en temps réel. Le système combine transcription vocale (WER 10%), analyse prosodique, matching vocabulaire émotionnel et suggestions contextuelles via API multi-module open-source. Les tests montrent une amélioration significative de la conscience émotionnelle en réunions simulées.

VoixAgents IASécurité IA
SIG
45
HYP
35
arXiv cs.AI·

Multimodal Cultural Heritage Knowledge Graph Extension with Language and Vision Models

Nouvelle approche pour étendre les graphes de connaissances (KG) du patrimoine culturel français. Les auteurs introduisent WJoconde, un KG multimodal intégrant texte et images, avec trois variantes et un benchmark pour la complétion de KG. Ils proposent un framework combinant LLM et Vision-Language Models pour extraire et valider automatiquement les données, améliorant la fiabilité du KG.

VisionRAGBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

SAPO améliore la recommandation générative en alignant l'optimisation par renforcement sur les étapes de raisonnement individuelles. Au lieu d'attribuer un seul avantage à la réponse complète, SAPO calcule un avantage relatif pour chaque étape de raisonnement et token SID, stabilisant l'entraînement et surpassant les baselines sur trois datasets réels.

Reinforcement learningRaisonnementGénération de code
SIG
75
HYP
15
arXiv cs.AI·

Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents

Architecture mémoire dual-process pour agents scientifiques : découple fenêtre épisodique (10 messages) de consolidation sémantique (3 tokens/message). Évaluation sur 15,000 messages, 6 LLMs (OpenAI, Anthropic, Google) : maintient 70-85% précision à 10,000 messages avec 62% moins de tokens. Identifie trade-offs : Dual Process excelle requêtes numériques/temporelles, RAG pour récupération historique.

Agents IARaisonnementRAG
SIG
78
HYP
25
arXiv cs.AI·

GraphMind: From Operational Traces to Self-Evolving Workflow Automation

GraphMind automatise les workflows opérationnels complexes en extrayant des graphes d'actions à partir de traces humaines, puis les exécute via un moteur multi-agent avec raisonnement LLM. Un mécanisme d'apprentissage par renforcement (ATR) optimise les chemins réussis. Déployé sur 4 services cloud, le système surpasse un baseline Trace-RAG avec un score 4.95/5 en révision experte.

Multi-agentsRAGReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

NeuSymMS: A Hybrid Neuro-Symbolic Memory System for Persistent, Self-Curating LLM Agents

NeuSymMS est un système de mémoire hybride neuro-symbolique pour agents LLM. Il couple l'extraction neurale de faits depuis le dialogue avec un système expert CLIPS qui classe, déduplique et réconcilie les faits. Les connaissances sont stockées sous forme de triplets sujet-relation-valeur en base de données relationnelle, avec mémoire court/long terme et promotion basée sur l'accès.

Agents IARAGRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Memory-Guided Tree Search with Cross-Branch Knowledge Transfer for LLM Solver Synthesis

MEMOIR, un framework de recherche arborescente guidée par mémoire, synthétise automatiquement des solveurs pour l'optimisation combinatoire via LLM. Avec une hiérarchie mémoire à deux niveaux (locale et globale), il atteint 96,7% de validité sur 7 problèmes (scheduling, routing, packing), surpassant les baselines de 9,2 points et réduisant la variance inter-exécutions d'un ordre de magnitude.

Agents IARaisonnementGénération de code
SIG
78
HYP
25
arXiv cs.AI·

Multi-Party Multi-Objective Optimization as Consensus Search: Runtime Analysis of Cross-Party Recombination

Étude théorique des algorithmes évolutionnaires multi-objectifs pour l'optimisation multi-parties (MPMOP). Sur le benchmark MP-JCG, une mutation guidée par les gains requiert Θ(n²) évaluations pour franchir une région critique, tandis que CPR-NSGA-II atteint O(n log n) via recombination cross-party. Analyse de runtime sur BPBOMST (problème d'arbre couvrant minimum multi-parties) avec bornes paramétrées.

Multi-agentsBenchmarksPapers
SIG
72
HYP
08
arXiv cs.AI·

Computational Challenges in Token Economics: Bridging Economic Theory and AI System Design

Article théorique sur les défis computationnels de l'économie des tokens dans les systèmes LLM. Introduit le concept de « Token Economics Trilemma » : tensions entre granularité de valorisation, exécution basse-latence et optimalité d'allocation. Identifie trois domaines techniques : comptabilité temps-réel, allocation de ressources contrainte, architecture système consciente de l'économie.

InfrastructureBenchmarksRaisonnement
SIG
45
HYP
25
arXiv cs.AI·

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

D²Evo est un framework RL pour améliorer le raisonnement des LLM via l'auto-évolution. La méthode génère des échantillons d'entraînement de difficulté moyenne en minant des ancres adaptées aux capacités du modèle, puis optimise conjointement un Questioner et un Solver. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K exemples réels.

Reinforcement learningRaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

QQJ est un framework d'évaluation pour l'IA générative qui combine rubrics multi-dimensionnels conçus par experts et calibrage d'LLM évaluateurs sur un petit ensemble d'annotations de haute qualité. Testé sur génération de texte et images, QQJ montre meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles et les évaluateurs LLM non structurés.

ÉvaluationsBenchmarksAlignement
SIG
72
HYP
28
arXiv cs.AI·

CBT-Audio: Evaluating Audio Language Models for Patient-Side Distress Intensity Estimation in CBT Session Recordings

CBT-Audio est un dataset de 1,802 tours de parole issus de 96 enregistrements CBT publics, avec labels de détresse validés par experts. L'évaluation de 10 modèles audio open-source montre que l'audio améliore l'estimation de détresse par rapport au texte seul dans 8/10 familles de modèles, particulièrement quand contenu verbal et prosodie divergent.

BenchmarksVoixÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Reasoning Before Diagnosis: Physician-Inspired Structured Thinking for ECG Classification

CardioThink, un framework MLLM inspiré par la pratique médicale, structure le diagnostic ECG en étapes explicites (rythme, conduction, morphologie, impression) pour améliorer l'interprétabilité. L'optimisation Structured Set Policy Optimization (SSPO) aligne le raisonnement clinique sans annotations manuelles, surpassant les approches directes sur plusieurs benchmarks ECG.

RaisonnementVisionReinforcement learning
SIG
72
HYP
28
arXiv cs.AI·

CyberCorrect: A Cybernetic Framework for Closed-Loop Self-Correction in Large Language Models

CyberCorrect formalise l'auto-correction des LLM comme système de contrôle en boucle fermée. Un détecteur d'erreurs tri-modal (auto-cohérence, confiance verbalisée, vérification logique) et un contrôleur de correction type-dirigé améliorent la précision à 79,8% sur CyberCorrect-Bench (440 tâches), +6,2pp vs méthodes existantes, réduisant les sur-corrections de 41%.

RaisonnementÉvaluationsPapers
SIG
78
HYP
25
arXiv cs.AI·

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

Modélisation de la difficulté d'items sans réponses pour questions à choix multiples via transformers fine-tunés. Approche end-to-end sur le texte des items éliminant l'ingénierie manuelle des features. Variante multi-tâche avec objectif auxiliaire QA améliore significativement les petits échantillons.

Fine-tuningBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

A2RBench est un pipeline automatisé pour générer des benchmarks de raisonnement abstrait vérifiables formellement. Via vérification programmatique (cycle consistency), il élimine les hallucinations et crée des variations de tâches à grande échelle. Les évaluations montrent que les LLMs actuels obtiennent 39,8% vs 68,5% pour les humains, et peinent sur les tâches 3D complexes.

BenchmarksRaisonnementÉvaluations
SIG
75
HYP
25
arXiv cs.AI·

Is VLA Reasoning Faithful? Probing Safety of Chain-of-Causation

Étude systématique de la fidélité du raisonnement dans les modèles VLA (Vision-Language-Action) de conduite autonome. Analyse de 300 inférences Alpamayo-R1-10B sur 100 scénarios PhysicalAI-AV révèle : fidélité de raisonnement de 42,5%, 94 piétons manqués, fragilité de trajectoire de 97,7% sous perturbations visuelles, cohérence raisonnement-action de 48,3%. Propose une architecture de sécurité à quatre composants.

VisionRaisonnementSécurité IA
SIG
75
HYP
15
arXiv cs.AI·

CAM-Bench: A Benchmark for Computational and Applied Mathematics in Lean

CAM-Bench est un benchmark Lean 4 de 1 000 problèmes de mathématiques computationnelles et appliquées (optimisation, algèbre linéaire numérique, analyse numérique). Les problèmes sont extraits de manuels avec contexte local reconstruit via pipeline de récupération de dépendances. Évaluation de LLMs et agents de formalisation révèle des défaillances sur les hypothèses locales et le contrôle long-horizon.

BenchmarksRaisonnementGénération de code
SIG
78
HYP
15
arXiv cs.AI·

CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

CAREBench est un benchmark évaluant la compréhension émotionnelle des LLMs via le raisonnement d'appraisal cognitif. Testé sur 6 modèles avec annotations complètes de chaînes inférentielles (perspectives première/troisième personne), il révèle que les modèles forts égalent les humains sur certaines tâches mais échouent sur le raisonnement d'appraisal et la reconnaissance d'émotions positives.

BenchmarksÉvaluationsRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

From Imitation to Interaction: Mastering Game of Schnapsen with Shallow Reinforcement Learning

Des agents de réseaux de neurones peu profonds maîtrisent le jeu de cartes Schnapsen via apprentissage par renforcement. RLBot, entraîné par mises à jour Monte Carlo asynchrones, surpasse MLPBot (imitation supervisée) et bat significativement RdeepBot, un baseline basé sur la recherche. La combinaison d'une fonction de valeur apprise avec une recherche plus profonde en jeu améliore les performances.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

MADP: A Multi-Agent Pipeline for Sustainable Document Processing with Human-in-the-Loop

MADP est une architecture multi-agent pour l'automatisation des documents en entreprise, combinant classification deep learning et extraction LLM avec validation humaine. Déployée sur 955 documents réels, elle atteint 97% d'automatisation complète et réduit les besoins en FTE de 70%. Accuracy de 98.5% avec supervision humaine; réduction de 69% des émissions CO2 vs traitement manuel.

Multi-agentsAgents IAGénération de code
SIG
78
HYP
25
arXiv cs.AI·

Latent Heuristic Search: Continuous Optimization for Automated Algorithm Design

Méthode de découverte automatique d'heuristiques via optimisation continue dans un espace latent. Un encodeur mappe des programmes discrets en embeddings continus, un modèle de substitution différentiable prédit les performances, et un flux de normalisation invertible régularise la trajectoire d'optimisation. Évaluation sur TSP, CVRP, KSP et Online Bin Packing avec résultats compétitifs aux baselines évolutionnaires.

Agents IARaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

ECC, un algorithme de clustering de requêtes, calibre les embeddings sémantiques via comparaisons de modèles pour aligner la sémantique de surface avec les capacités latentes des LLM. Utilisant un modèle Bradley-Terry, il améliore le classement des capacités de 17,64 points vs baselines humaines et 18,02 points vs embeddings, avec applications au routage de requêtes.

ÉvaluationsBenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Scientific Logicality Enriched Methodology for LLM Reasoning: A Practice in Physics

Étude systématique de la logicité dans le raisonnement scientifique des LLM. Les auteurs développent une méthodologie enrichie incluant des critères d'évaluation et des méthodes d'échantillonnage pour l'entraînement guidé par la logicité. Expériences sur trois LLM différents avec données de physique extraites de littérature académique. Code disponible.

RaisonnementFine-tuningPapers
SIG
72
HYP
18
arXiv cs.AI·

Effort as Ceiling, Not Dial: Reasoning Budget Does Not Modulate Cognitive Cost Alignment Between Humans and Large Reasoning Models

Les grands modèles de raisonnement (LRM) génèrent des traces alignées avec les temps de réaction humains, mais cet alignement persiste indépendamment du budget de raisonnement en inférence. Étude sur GPT-OSS-20B et GPT-OSS-120B : trois niveaux d'effort, six tâches cognitives. L'allocation de tokens suit les patterns de difficulté humains et reflète une structure figée à l'entraînement, non modulée en temps réel.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

The Alpha Illusion: Reported Alpha from LLM Trading Agents Should Not Be Treated as Deployment Evidence

Étude critique sur les agents de trading basés sur LLM (FinCon, FinMem, TradingAgents, FinAgent, QuantAgent, FLAG-Trader). Les Sharpe ratios rapportés ne constituent pas une preuve de déploiement viable : contamination temporelle, frictions non modélisées et calibration prédictive insuffisante invalident les réclamations. Propose protocole P1-P6 et architecture modulaire avec LLM comme interface d'audit.

Agents IABenchmarksÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

Towards Human-Level Book-Writing Capability

Chercheurs présentent un framework pour l'écriture créative à l'échelle du livre. À partir de romans du domaine public, ils construisent un échafaudage multi-résolution (résumé → chapitres → scènes → texte complet) et entraînent un modèle long-contexte sur des trajectoires prompt-to-book. L'objectif : générer de la prose littéraire humaine plutôt que du texte générique assisté.

Fine-tuningRaisonnementGénération de code
SIG
72
HYP
28
arXiv cs.AI·

PersonaArena: Dynamic Simulation for Evaluating and Enhancing Persona-Level Role-Playing in Large Language Models

PersonaArena est un framework de simulation dynamique pour évaluer et améliorer le jeu de rôle au niveau persona dans les LLM. Il utilise un corpus filtré de contenu social généré par les utilisateurs, crée une banque de personas nuancée, et simule des interactions multi-tours en environnements sociaux. Un juge multi-agent débatteur assure une évaluation holistique.

Agents IAMulti-agentsÉvaluations
SIG
65
HYP
35
arXiv cs.AI·

Reliability and Effectiveness of Autonomous AI Agents in Supply Chain Management

Étude des agents IA autonomes dans les chaînes d'approvisionnement multi-échelons via le Beer Game du MIT. Les modèles de raisonnement réduisent les coûts de 67% vs équipes humaines, mais révèlent un « effet bullwhip agent » : amplification de l'instabilité décisionnelle entre échelons. Un cadre GRPO de post-entraînement par renforcement sur récompenses système améliore la fiabilité.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

From Static Risk to Dynamic Trajectories: Toward World-Model-Inspired Clinical Prediction

Framework unifié pour la modélisation de trajectoires de maladie en IA clinique, intégrant prédiction factuelle, estimation contrefactuelle et évaluation de politiques. Aborde les biais de traitement, les confondeurs variables dans le temps et les biais d'observation pour transformer les prédictions statiques en estimations dynamiques sensibles au traitement.

RaisonnementÉvaluationsSécurité IA
SIG
75
HYP
15
arXiv cs.AI·

Reasoning Can Be Restored by Correcting a Few Decision Tokens

Les modèles de raisonnement surpassent les LLM de base sur les benchmarks complexes. Une étude révèle que l'avantage provient d'un petit ensemble de tokens décisionnels précoces (~8% sur Qwen3-0.6B), concentrés en phase de planification. Une intervention sélective du modèle de raisonnement sur ces tokens critiques restaure les performances sans surcoût computationnel majeur.

RaisonnementBenchmarksQwen
SIG
78
HYP
15
arXiv cs.AI·

Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

HT-GRPO, une méthode d'apprentissage par renforcement hiérarchique pour les modèles de diffusion multi-modaux, organise l'optimisation en trois étapes (global, structure, raffinement). Elle résout le problème des séquences de démasquage multiples et attribue des récompenses différenciées selon l'importance des tokens. Tests sur MMaDA et Lumina-DiMOO montrent des gains sur GenEval et DPG.

Reinforcement learningGénération d'imagesBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

The Lattice Representation Hypothesis of Large Language Models

Une hypothèse propose que les LLM encodent des treillis de concepts (lattices) dans leur géométrie d'embeddings. Le cadre unifie la Linear Representation Hypothesis avec l'Analyse Formelle de Concepts (FCA), montrant que les directions d'attributs linéaires induisent des treillis via intersections d'hyperplans. Expériences sur WordNet valident que les embeddings capturent les structures logiques et hiérarchiques.

RaisonnementPapersEmbeddings
SIG
72
HYP
18
arXiv cs.AI·

GRID: Graph Representation of Intelligence Data for Security Text Knowledge Graph Construction

GRID est un framework end-to-end pour construire des graphes de connaissances de sécurité à partir d'articles de cyber threat intelligence. Utilisant Qwen3-4B-Instruct, il combine extraction de graphes, révision de texte et une banque de tâches (questions multi-choix + regex) pour générer des récompenses stables. Sur 249 articles CTI, le modèle Task-bank atteint 84,62% précision, 64,91% rappel et 68,53% F1 moyen.

Reinforcement learningBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

VGGT-CD: Training-Free Robust Registration for 3D Change Detection

VGGT-CD est un pipeline sans entraînement pour la détection de changements 3D à partir d'images multi-vues. Il découple l'enregistrement inter-temporel de l'interférence des changements dynamiques via une inférence conjointe d'images-clés et une purification des reconstructions denses. Sur le benchmark World Across Time, il réduit l'erreur de trajectoire de 44% en extérieur et 59% en intérieur, 6× plus rapide.

VisionBenchmarksPapers
SIG
75
HYP
15
arXiv cs.AI·

Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data

Méthode post-hoc d'alignement multimodal utilisant des représentations relatives au niveau token pour appareiller encodeurs pré-entraînés avec peu de données. Apprentissage d'ancres learnable dans chaque espace modal pour induire des patterns de similarité cross-modal cohérents. Surpasse les méthodes existantes en classification zero-shot, retrieval cross-modal et segmentation zero-shot.

EmbeddingsVisionRAG
SIG
72
HYP
18