Page 46 sur 144

ToutHaut signalRécent
5732 articles
arXiv cs.AI·

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

BiasGRPO propose une méthode d'optimisation de politique (GRPO) pour atténuer les biais sociaux dans les LLM. En normalisant les récompenses sur un groupe de complétions, l'approche stabilise l'entraînement par rapport à DPO et PPO. Les auteurs publient un modèle de récompense de biais optimisé et un dataset étendu.

Reinforcement learningAlignementSécurité IA
SIG
72
HYP
25
arXiv cs.LG·

When Offline Selectors Cannot Beat the Best Single Model: A Diagnostic Study on edX Dropout Prediction

Étude diagnostique sur les sélecteurs de modèles hors ligne pour la prédiction d'abandon sur edX. Les auteurs identifient trois causes d'échec (learner mal adapté, état non prédictif, label shift) via trois étapes : plafond oracle par k-NN, évaluation de BC/DQN/CQL, ablation de l'état. Sur 5 modèles, l'oracle gagne 9,7 points, mais les learners restent bloqués par ambiguïté représentationnelle locale.

ÉvaluationsReinforcement learningBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Supportive Token Revealing for Fast Diffusion Language Model Decoding

AXON est un module sans entraînement pour améliorer le décodage parallèle des modèles de diffusion discrets. Il sélectionne les tokens « ancres » (tokens confiants) que les positions incertaines utilisent via attention, réduisant les étapes de débruitage tout en maintenant la qualité sur des benchmarks de raisonnement et génération de code.

Génération de codeRaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

ADAPTOOD: Uncertainty-Aware Fine-Tuning for Out-of-Distribution ECG Time Series Models

ADAPTOOD est un framework pour l'adaptation de modèles de séries temporelles ECG face à des décalages de distribution. Il utilise l'incertitude des données pour quantifier la sévérité du décalage et guide le fine-tuning avec des mises à jour low-rank et optimisation adaptative des hyperparamètres. Résultats : +7% de précision et +12,9% de précision sur les tâches OOD.

Fine-tuningRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

A Goal-Set Characterization of Task Composition in the Boolean Task Algebra

La Boolean Task Algebra (BTA) permet la composition de tâches zéro-shot en RL. Les auteurs montrent que dans les MDPs déterministes, les fonctions Q optimales se réduisent aux tâches universelle et vide, rendant les tâches de base logarithmiques redondantes. Ils proposent une méthode basée sur les ensembles de buts qui réduit les coûts d'apprentissage et de composition tout en préservant les performances.

Reinforcement learningRaisonnementPapers
SIG
72
HYP
15
arXiv cs.CL·

SANE Schema-aware Natural-language Evaluation of Biological Data

SANE propose un paradigme d'évaluation text-to-SQL spécifique aux domaines biologiques, utilisant des benchmarks générés automatiquement et ancrés aux schémas réels. Les tests montrent que les LLM en few-shot génèrent des requêtes SQL fiables sans fine-tuning, avec des erreurs principalement dues à des entrées ambiguës plutôt qu'à des défauts de génération.

BenchmarksPrompt engineeringRAG
SIG
72
HYP
18
arXiv cs.AI·

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Les auteurs proposent un cadre pour les systèmes multi-agents où le désaccord entre agents est traité comme un signal informatif plutôt que comme une erreur à éliminer. Ils définissent quatre états de désaccord basés sur la similarité des traces de raisonnement et l'accord sur les conclusions, appliqués à la modération de contenu avec routage stratégique défaisable.

Multi-agentsRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Early Detection of Alzheimer's Disease Using Explainable Machine Learning on Clinical Biomarkers: A Multi-Class Classification Study Using the Alzheimer's Disease Neuroimaging Initiative (ADNI) Dataset

Modèle XGBoost pour la détection précoce d'Alzheimer en trois classes (cognition normale, déficit cognitif léger, Alzheimer) sur 1 641 sujets ADNI. AUC-ROC macro 0.983 en validation croisée, 0.982 sur test. SHAP identifie CDR Global comme prédicteur dominant pour NC/MCI, CDR-SB et MMSE pour AD.

ÉvaluationsBenchmarksPapers
SIG
72
HYP
18
arXiv cs.LG·

A Geometric View of Counterfactual Behavior: Interaction of Boundary Proximity and Local Support

Étude géométrique des explications contrefactuelles dans les systèmes de ML modernes. Les chercheurs montrent que des modèles avec performances prédictives similaires peuvent différer substantiellement dans la faisabilité et la distance des changements contrefactuels, déterminées par la proximité de la frontière de décision et le support local des données.

ÉvaluationsSécurité IA
SIG
72
HYP
15
arXiv cs.LG·

Building The Ph(ysical)AI Layer Of Machine Intelligence

Modèles fondamentaux basés sur des principes physiques (décomposition de Fourier, conservation d'énergie, symétrie) plutôt que sur corrélations statistiques. Entraîné sur données RF, un encodeur de 1.99M paramètres atteint 77.7% de précision moyenne sur 15 tâches diversifiées via linear probing, sans fine-tuning. Performance supérieure sur tâches physiques (84.5%) vs sémantiques (70.0%).

RaisonnementVisionBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Stumbling Into AI Emotional Dependence: How Routine AI Interactions Reshape Human Connection

Étude longitudinale montrant que des conversations quotidiennes de 5 min avec une IA sur 28 jours réduisent de 10,3% la préférence pour le soutien humain et augmentent de 11,6% celle pour l'IA. Le soutien émotionnel émerge incidentellement dans les interactions courantes, pas seulement via des chatbots dédiés, redirigeant progressivement les choix relationnels.

Sécurité IAAlignementRégulation
SIG
72
HYP
35
arXiv cs.AI·

Simulate, Reason, Decide: Scientific Reasoning with LLMs for Simulation-Driven Decision Making

MechSim est un framework neuro-symbolique pour raisonner sur les mécanismes internes des simulateurs scientifiques intégrés aux systèmes LLM. Il représente les simulateurs via un schéma structuré capturant hypothèses, variables et dépendances, permettant aux agents LLM de générer des explications fondées sur les mécanismes plutôt que de traiter les simulateurs comme des boîtes noires.

RaisonnementAgents IAPapers
SIG
72
HYP
25
arXiv cs.AI·

The Digital Apprentice: A Framework for Human-Directed Agentic AI Development

Le Digital Apprentice est un framework pour l'IA agentive qui calibre l'autonomie progressivement selon des preuves empiriques. L'agent internalise la méthodologie tacite d'un humain superviseur, escalade les niveaux d'autonomie par compétence, et corrige la dérive d'alignement en temps réel. Trois piliers : capture de méthodologie, autorisation avec escalade explicite, alignement continu.

Agents IAAlignementSécurité IA
SIG
72
HYP
28
arXiv cs.AI·

Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

Étude sur l'apprentissage par renforcement basé sur l'affinité pour instiller des comportements vertueux chez les agents IA. Les chercheurs testent cette technique dans Fog of Love, un environnement multi-agent complexe où deux agents doivent concilier compétition individuelle et coopération relationnelle. Les affinités localisées améliorent les performances et rendent le comportement des agents interprétable.

Multi-agentsReinforcement learningAlignement
SIG
72
HYP
25
arXiv cs.AI·

Tree-Based Formalization of Multi-Agent Complementarity in Human-AI Interactions

Formalisation arborescente de la complémentarité dans les interactions humain-IA multi-agents. Le cadre modélise les protocoles HAI par des arbres binaires planaires dont les feuilles sont des vecteurs de prédiction. Résultats : complémentarité impossible en sélection d'agent, atteignable en régression (avec forme fermée pour N=2), obstruée en classification sous pertes monotones.

Multi-agentsRaisonnementPapers
SIG
72
HYP
15
arXiv cs.CL·

Computational conceptual history of scientific concepts: From early digital methods to LLMs

Article de synthèse situant les LLM dans l'histoire des méthodes computationnelles d'analyse conceptuelle en histoire, philosophie et sociologie des sciences. Examine les apports des LLM aux approches antérieures (méthodes numériques, approches distributionnelles, détection de changement sémantique lexical) et les défis méthodologiques persistants : construction de corpus, opérationnalisation, évaluation.

PapersBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

Smart Transportation Without Neurons -- Fair Metro Network Expansion with Tabular Reinforcement Learning

Méthode de renforcement tabulaire pour l'expansion de réseaux de métro (MNEP). Reformulation en processus de décision non-markovien (NMRDP) : performance comparable à Deep RL avec 18× moins d'épisodes d'entraînement et 12× moins d'émissions carbone. Intègre critères d'équité sociale. Validé sur Xi'an et Amsterdam.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection

DMAIC-IAD est un système multi-agent inspiré du framework DMAIC de gestion qualité pour la détection d'anomalies industrielles. Il planifie d'abord les stratégies via des procédures opérationnelles standardisées, puis utilise un modèle juge pré-entraîné pour évaluer les candidats sans exécution coûteuse. Amélioration de 37,76% sur les baselines agentic existants.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25