Page 75 sur 192

ToutHaut signalRécent

7679 articles

Stepwise Reasoning Enhancement for LLMs via External Subgraph Generation

SGR intègre les LLM avec des graphes de connaissances externes via génération de sous-graphes guidée par schéma. Le framework extrait entités et relations, récupère des sous-graphes compacts, puis combine raisonnement Cypher direct et validation multi-chemins. Tests sur CWQ, WebQSP, GrailQA, KQA Pro montrent amélioration de précision et Hits@1 vs baselines.

Raisonnement RAG Benchmarks

SIG

HYP

arXiv cs.LG·4 juin

TPA-AD: A Two-Stage Pseudo Anomaly-Guided Method for Bearing Time-Series Anomaly Detection

TPA-AD propose une méthode deux étapes pour détecter les anomalies dans les séries temporelles de roulements. Elle génère des pseudo-anomalies près de la frontière normale via un modèle de reconstruction, puis apprend des représentations sensibles aux anomalies par apprentissage contrastif et scoring KNN. Testée sur des données de roulements et 13 benchmarks publics.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·4 juin

Physics-Informed Machine Learning for Short-Term Flood Prediction

Un framework PIML intègre des contraintes hydrologiques dans la fonction de perte d'un LSTM pour la prédiction de crues. La contrainte « Trend Alignment » pénalise les incohérences entre tendances de précipitation et débit. Sur données limitées (5%), le modèle atteint NSE=0.23 vs 0.20 pour LSTM standard, avec meilleure stabilité en conditions extrêmes.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.AI·4 juin

BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction

BiNSGPS propose une interaction bidirectionnelle entre un modèle multimodal (MLLM) et un solveur symbolique pour résoudre des problèmes de géométrie. Le système corrige dynamiquement les représentations formelles incohérentes et génère des hypothèses auxiliaires basées sur les retours du solveur, éliminant les erreurs précoces des approches unidirectionnelles.

Raisonnement Papers Agents IA

SIG

HYP

arXiv cs.AI·4 juin

Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection

DMAIC-IAD est un système multi-agent inspiré du framework DMAIC de gestion qualité pour la détection d'anomalies industrielles. Il planifie d'abord les stratégies via des procédures opérationnelles standardisées, puis utilise un modèle juge pré-entraîné pour évaluer les candidats sans exécution coûteuse. Amélioration de 37,76% sur les baselines agentic existants.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.LG·4 juin

Self-Distilled Policy Gradient

SDPG combine l'auto-distillation de politique avec des avantages de vérificateur relatifs au groupe et une régularisation KL. La méthode utilise une divergence KL inverse sur vocabulaire complet pour superviser les générations d'un modèle de langage. Code disponible sur GitHub.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.LG·4 juin

KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models

KODA est un framework kernel-based pour comparer et aligner les représentations de modèles vision-langage (CLIP, SigLIP). La méthode identifie des sous-ensembles d'échantillons faiblement groupés dans une représentation mais fortement groupés dans une autre, via optimisation contrainte et approximations low-rank. Code disponible.

Vision Embeddings Benchmarks

SIG

HYP

arXiv cs.LG·4 juin

From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments

Cadre théorique pour l'apprentissage par renforcement profond en environnements continus, modélisant le problème comme processus stochastique continu. Pour réseaux à une couche cachée, les auteurs caractérisent l'évolution de la distribution d'état via équations différentielles stochastiques à la limite de largeur infinie.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.LG·4 juin

Smart Transportation Without Neurons -- Fair Metro Network Expansion with Tabular Reinforcement Learning

Méthode de renforcement tabulaire pour l'expansion de réseaux de métro (MNEP). Reformulation en processus de décision non-markovien (NMRDP) : performance comparable à Deep RL avec 18× moins d'épisodes d'entraînement et 12× moins d'émissions carbone. Intègre critères d'équité sociale. Validé sur Xi'an et Amsterdam.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·4 juin

Stumbling Into AI Emotional Dependence: How Routine AI Interactions Reshape Human Connection

Étude longitudinale montrant que des conversations quotidiennes de 5 min avec une IA sur 28 jours réduisent de 10,3% la préférence pour le soutien humain et augmentent de 11,6% celle pour l'IA. Le soutien émotionnel émerge incidentellement dans les interactions courantes, pas seulement via des chatbots dédiés, redirigeant progressivement les choix relationnels.

Sécurité IA Alignement Régulation

SIG

HYP

arXiv cs.AI·4 juin

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Les auteurs proposent un cadre pour les systèmes multi-agents où le désaccord entre agents est traité comme un signal informatif plutôt que comme une erreur à éliminer. Ils définissent quatre états de désaccord basés sur la similarité des traces de raisonnement et l'accord sur les conclusions, appliqués à la modération de contenu avec routage stratégique défaisable.

Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·4 juin

A Normative Intermediate Representation for ASP-Based Compliance Reasoning

MONIR est une représentation intermédiaire normative pour le raisonnement de conformité basé sur ASP. Le framework inclut une sémantique opérationnelle par étapes, une compilation exécutable (MONIR-ASP) et des extensions pour fonctions externes et règles temporelles. Validation sur réglementations ADAS chinoises avec pipeline assisté par LLM.

Papers Raisonnement Régulation

SIG

HYP

arXiv cs.CL·4 juin

Using Text-Based Causal Inference to Disentangle Factors Influencing Online Review Ratings

Méthodologie basée sur CausalBERT pour isoler l'impact de chaque aspect sur les notes globales des avis en ligne. Améliorations : calibrage de température, optimisation d'hyperparamètres, méthodes d'interprétabilité. Validation sur 600K+ avis d'écoles américaines : administration et performance aux tests sont les principaux facteurs.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·4 juin

SaliMory: Orchestrating Cognitive Memory for Conversational Agents

SaliMory est un framework d'entraînement pour agents conversationnels avec mémoire persistante. Il utilise une structure cognitive hiérarchique (faits utilisateur, préférences, mémoire de travail) et des récompenses décomposées par étape pour superviser les opérations mémoire (filtrage, consolidation, rappel). Résultats : -33% erreurs mémoire, +10% précision end-to-end, +100% taux de personnalisation.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·4 juin

Low-rank Distributional Matrix Completion

Nouvelle approche de complétion matricielle où chaque entrée est une distribution de probabilité plutôt qu'un scalaire. Utilise les kernel mean embeddings et introduit une notion de Tucker rank pour matrices à valeurs distributionnelles. Propose un estimateur avec bornes d'erreur non-asymptotiques et validation expérimentale.

Papers Benchmarks

SIG

HYP

arXiv cs.AI·4 juin

The Digital Apprentice: A Framework for Human-Directed Agentic AI Development

Le Digital Apprentice est un framework pour l'IA agentive qui calibre l'autonomie progressivement selon des preuves empiriques. L'agent internalise la méthodologie tacite d'un humain superviseur, escalade les niveaux d'autonomie par compétence, et corrige la dérive d'alignement en temps réel. Trois piliers : capture de méthodologie, autorisation avec escalade explicite, alignement continu.

Agents IA Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·4 juin

When Offline Selectors Cannot Beat the Best Single Model: A Diagnostic Study on edX Dropout Prediction

Étude diagnostique sur les sélecteurs de modèles hors ligne pour la prédiction d'abandon sur edX. Les auteurs identifient trois causes d'échec (learner mal adapté, état non prédictif, label shift) via trois étapes : plafond oracle par k-NN, évaluation de BC/DQN/CQL, ablation de l'état. Sur 5 modèles, l'oracle gagne 9,7 points, mais les learners restent bloqués par ambiguïté représentationnelle locale.

Évaluations Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·4 juin

Characterizing initial human-AI proof formalization workflows

Étude mixte sur l'intégration de l'IA dans les workflows de formalisation de preuves mathématiques. Enquête qualitative + user study contrôlée montrent que les mathématiciens préfèrent conserver le contrôle haut niveau, mais obtiennent une meilleure précision avec accès aux outils IA, en combinant plusieurs modèles.

Raisonnement Génération de code Papers

SIG

HYP

arXiv cs.LG·4 juin

Bayes-Sufficient Representations in Supervised Learning

Article théorique définissant les représentations Bayes-suffisantes en apprentissage supervisé. Une représentation est Bayes-suffisante si une tête de prédiction peut l'utiliser pour implémenter une règle d'action optimale au sens de Bayes. Le cadre relie la suffisance à l'élicitation de propriétés et montre que la perte détermine l'information pertinente requise.

Papers Évaluations

SIG

HYP

arXiv cs.CL·4 juin

Computational conceptual history of scientific concepts: From early digital methods to LLMs

Article de synthèse situant les LLM dans l'histoire des méthodes computationnelles d'analyse conceptuelle en histoire, philosophie et sociologie des sciences. Examine les apports des LLM aux approches antérieures (méthodes numériques, approches distributionnelles, détection de changement sémantique lexical) et les défis méthodologiques persistants : construction de corpus, opérationnalisation, évaluation.

Papers Benchmarks

SIG

HYP

arXiv cs.LG·4 juin

ADAPTOOD: Uncertainty-Aware Fine-Tuning for Out-of-Distribution ECG Time Series Models

ADAPTOOD est un framework pour l'adaptation de modèles de séries temporelles ECG face à des décalages de distribution. Il utilise l'incertitude des données pour quantifier la sévérité du décalage et guide le fine-tuning avec des mises à jour low-rank et optimisation adaptative des hyperparamètres. Résultats : +7% de précision et +12,9% de précision sur les tâches OOD.

Fine-tuning Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·4 juin

Early Detection of Alzheimer's Disease Using Explainable Machine Learning on Clinical Biomarkers: A Multi-Class Classification Study Using the Alzheimer's Disease Neuroimaging Initiative (ADNI) Dataset

Modèle XGBoost pour la détection précoce d'Alzheimer en trois classes (cognition normale, déficit cognitif léger, Alzheimer) sur 1 641 sujets ADNI. AUC-ROC macro 0.983 en validation croisée, 0.982 sur test. SHAP identifie CDR Global comme prédicteur dominant pour NC/MCI, CDR-SB et MMSE pour AD.

Évaluations Benchmarks Papers

SIG

HYP

arXiv cs.CL·4 juin

Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA

DOSEBENCH, un benchmark de 81 scénarios de dosage OTC (acétaminophène, ibuprofène), évalue 4 LLMs sur le raisonnement temporel et le respect des contraintes médicales. Les modèles échouent sur le calcul d'intake 24h et les cas ambigus, même avec réponses confiantes.

Benchmarks Sécurité IA Raisonnement

SIG

HYP

arXiv cs.AI·4 juin

Tree-Based Formalization of Multi-Agent Complementarity in Human-AI Interactions

Formalisation arborescente de la complémentarité dans les interactions humain-IA multi-agents. Le cadre modélise les protocoles HAI par des arbres binaires planaires dont les feuilles sont des vecteurs de prédiction. Résultats : complémentarité impossible en sélection d'agent, atteignable en régression (avec forme fermée pour N=2), obstruée en classification sous pertes monotones.

Multi-agents Raisonnement Papers

SIG

HYP

arXiv cs.CL·4 juin

Listening to the Workforce: Measuring Construction Worker Safety Attitudes from Social Media Discourse Using LLMs

Étude arXiv validant un cadre d'analyse (CSAF) pour mesurer les attitudes de sécurité des ouvriers du bâtiment via leurs discussions Reddit. Un classificateur LLM atteint κ=0.90 sur 450 posts r/Construction et κ=0.89 sur 400 posts r/Roofing, puis analyse 10 346 contributions pour identifier les dimensions d'attitudes par thème de sécurité.

RAG Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

Noisy memory encoding explains negative polarity illusions

Une étude arXiv explique les « illusions de polarité négative » — où des phrases grammaticalement incorrectes sont jugées acceptables — par un encodage imparfait de la mémoire. Les chercheurs montrent que les locuteurs confondent les déterminants dans les propositions enchâssées, ce qui licencie à tort le mot « ever ». Six paires de déterminants testées confirment que la similarité augmente l'effet d'illusion.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·4 juin

What Type of Inference is Active Inference?

Article théorique sur l'inférence active : démontre que la minimisation de l'Expected Free Energy (EFE) peut se réécrire comme minimisation de la Variational Free Energy (VFE) avec corrections d'entropie explicites. Propose une caractérisation variationnelle complète de la planification basée sur l'EFE et un schéma de passage de messages. Validation sur trois environnements grid-world.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·4 juin

Building The Ph(ysical)AI Layer Of Machine Intelligence

Modèles fondamentaux basés sur des principes physiques (décomposition de Fourier, conservation d'énergie, symétrie) plutôt que sur corrélations statistiques. Entraîné sur données RF, un encodeur de 1.99M paramètres atteint 77.7% de précision moyenne sur 15 tâches diversifiées via linear probing, sans fine-tuning. Performance supérieure sur tâches physiques (84.5%) vs sémantiques (70.0%).

Raisonnement Vision Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models

Dynamic Infilling Anchors (DIA) est une méthode sans entraînement pour les modèles de langage diffusion (dLLMs) qui ajuste dynamiquement les positions d'ancrage pour générer du contenu structuré (JSON, templates de raisonnement). Testé sur GSM8K et MATH, DIA améliore la conformité au format et la précision des réponses en évitant les spans rigides.

Raisonnement Génération de code Benchmarks

SIG

HYP

arXiv cs.LG·4 juin

Novel Aspects of IEEE SA P3109 Arithmetic Formats for Machine Learning

IEEE P3109 définit une famille paramétrisée de formats binaires en virgule flottante pour le machine learning, avec support de précisions variables, arrondis stochastiques et modes de saturation. Les opérations sont sans exception et formellement vérifiées.

Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·4 juin

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

BiasGRPO propose une méthode d'optimisation de politique (GRPO) pour atténuer les biais sociaux dans les LLM. En normalisant les récompenses sur un groupe de complétions, l'approche stabilise l'entraînement par rapport à DPO et PPO. Les auteurs publient un modèle de récompense de biais optimisé et un dataset étendu.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.CL·4 juin

Fine-grained Fragment Retrieval in Multi-modal Long-form Dialogues

Nouvelle approche FFR pour récupérer des fragments cohérents multi-énoncés et multi-images dans les dialogues longs multimodaux. Deux modèles : F2RVLM (génération + RL avec récompenses multi-objectifs) pour fragments uniques, FFRS (indexation + retrieval deux étapes) pour corpus. Dataset MLDR créé, résultats supérieurs sur benchmarks.

RAG Vision Embeddings

SIG

HYP

arXiv cs.AI·4 juin

Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

Étude sur l'apprentissage par renforcement basé sur l'affinité pour instiller des comportements vertueux chez les agents IA. Les chercheurs testent cette technique dans Fog of Love, un environnement multi-agent complexe où deux agents doivent concilier compétition individuelle et coopération relationnelle. Les affinités localisées améliorent les performances et rendent le comportement des agents interprétable.

Multi-agents Reinforcement learning Alignement

SIG

HYP

arXiv cs.LG·4 juin

Stationarity-Aware Retrieval-Augmented Time Series Forecasting

SARAF, un framework de prévision de séries temporelles augmenté par récupération, adapte l'équilibre entre pertinence et diversité selon la stationnarité des données. Il sélectionne des segments historiques hétérogènes et agrège leurs futures de manière consciente de la non-stationnarité. Expériences sur 8 datasets réels montrent amélioration de précision et robustesse.

RAG Benchmarks Papers

SIG

HYP

arXiv cs.LG·4 juin

A Goal-Set Characterization of Task Composition in the Boolean Task Algebra

La Boolean Task Algebra (BTA) permet la composition de tâches zéro-shot en RL. Les auteurs montrent que dans les MDPs déterministes, les fonctions Q optimales se réduisent aux tâches universelle et vide, rendant les tâches de base logarithmiques redondantes. Ils proposent une méthode basée sur les ensembles de buts qui réduit les coûts d'apprentissage et de composition tout en préservant les performances.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.LG·4 juin

A Geometric View of Counterfactual Behavior: Interaction of Boundary Proximity and Local Support

Étude géométrique des explications contrefactuelles dans les systèmes de ML modernes. Les chercheurs montrent que des modèles avec performances prédictives similaires peuvent différer substantiellement dans la faisabilité et la distance des changements contrefactuels, déterminées par la proximité de la frontière de décision et le support local des données.

Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·4 juin

Unlocking Feature Learning in Gated Delta Networks at Scale

Étude des règles de scaling pour les Gated Delta Networks via μP. Les auteurs dérivent les paramétrisations optimales pour le transfer de taux d'apprentissage entre largeurs de modèles. Validation expérimentale sur pré-entraînement de LLM avec AdamW et SGD.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·4 juin

Simulate, Reason, Decide: Scientific Reasoning with LLMs for Simulation-Driven Decision Making

MechSim est un framework neuro-symbolique pour raisonner sur les mécanismes internes des simulateurs scientifiques intégrés aux systèmes LLM. Il représente les simulateurs via un schéma structuré capturant hypothèses, variables et dépendances, permettant aux agents LLM de générer des explications fondées sur les mécanismes plutôt que de traiter les simulateurs comme des boîtes noires.

Raisonnement Agents IA Papers

SIG

HYP

arXiv cs.CL·4 juin

Self-Evolving Deep Research via Joint Generation and Evaluation

SCORE, un framework co-évolutif, couple un évaluateur et un générateur dans un processus d'apprentissage partagé pour améliorer la génération de rapports de recherche profonde. Un meta-harness contrôle dynamiquement l'environnement d'évaluation selon la performance du solveur, évitant la saturation d'optimisation observée avec les évaluateurs statiques.

Raisonnement Reinforcement learning Agents IA

SIG

HYP

arXiv cs.AI·4 juin

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

Framework de vérification pré-déploiement pour agents IA en entreprise combinant enveloppe opérationnelle, génération de scénarios basée ontologie et certificat de confiance. Pilote sur 4 secteurs régulés (Fintech, Banque, Assurance, Santé) générant 1 800 scénarios : couverture réglementaire de 48,3% vs 33,1% pour baseline persona (p=0,0006). Tests sur Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B.

Agents IA Sécurité IA Évaluations

SIG

HYP