Archives

mai 2026

3148 articles

arXiv cs.AI·

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

Speech-Hands est un framework vocal agentic qui apprend à décider quand faire confiance à ses prédictions ou consulter des perceptions audio externes. Le modèle réduit le WER de 12,1% sur 7 benchmarks OpenASR et atteint 77,37% de précision en audio QA, en utilisant un mécanisme d'auto-réflexion pour éviter les hypothèses bruitées.

Agents IAVoixRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework

COMPACT, un framework de distillation CoT multi-enseignants, fusionne adaptativement les supervisions de plusieurs LLMs vers des modèles compacts. Il pondère dynamiquement les gradients des enseignants via trois métriques : consensus basé graphe, adaptabilité par information mutuelle, et difficulté basée perte. Résultats SOTA sans oubli catastrophique.

RaisonnementFine-tuningPapers
SIG
72
HYP
25
arXiv cs.CL·

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Les chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de credit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.

Reinforcement learningRaisonnementGénération de code
SIG
75
HYP
25
arXiv cs.CL·

Protection Is (Nearly) All You Need: Structural Protection Dominates Scoring in Globally Capped KV Eviction

Étude des politiques d'éviction KV cache (LRU, H2O, SnapKV, StreamingLLM, Ada-KV, QUEST, Random) sous contrainte globale. Sans protection structurelle aux frontières, toutes s'effondrent (F1≤0.064). Réserver 10% du cache à chaque limite restaure 69–90% de qualité sur LongBench avec C=256 (13% rétention). La position-0 concentre ~75% de l'attention; protection des tokens critiques domine le scoring.

RaisonnementBenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

SuReNav: Superpixel Graph-based Constraint Relaxation for Navigation in Over-constrained Environments

SuReNav propose une méthode de navigation basée sur graphes de superpixels pour les environnements sur-contraints. Le système combine génération de cartes avec contraintes régionales, relaxation via réseau de neurones entraîné sur démonstrations humaines, et exécution entrelacée. Évalué sur cartes 2D/3D OpenStreetMap et robot Spot, il atteint le meilleur score de ressemblance humaine.

Agents IARobotiquePapers
SIG
72
HYP
25
arXiv cs.AI·

GRAFT: Decoupling Ranking and Calibration for Survival Analysis

GRAFT est un modèle AFT hybride pour l'analyse de survie qui découple le classement pronostique de l'étalonnage des estimations. Il combine un modèle AFT linéaire avec un réseau résiduel non-linéaire et des portes stochastiques pour la sélection de features. Entraîné sur une perte alignée C-index avec imputation conditionnelle, il surpasse les baselines en discrimination et calibration.

PapersBenchmarksRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Perception-based Image Denoising via Generative Compression

Article proposant un cadre de compression générative pour le débruitage d'images basé sur la perception. Deux approches : un débruiteur WGAN conditionnel contrôlant le compromis rate-distortion-perception, et une stratégie de reconstruction par diffusion itérative guidée par des latents compressés. Garanties théoriques et améliorations perceptuelles validées sur benchmarks.

Génération d'imagesPapersBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

OptimusVLA, un modèle Vision-Langage-Action hiérarchique, améliore la manipulation robotique via deux mémoires : Global Prior Memory (remplace le bruit gaussien par des priors de trajectoires similaires) et Local Consistency Memory (assure la cohérence temporelle). Résultats : 98.6% sur LIBERO, +13.5% vs pi_0 sur CALVIN, 2.9x plus rapide en inférence.

VisionRobotiqueAgents IA
SIG
78
HYP
25
arXiv cs.AI·

Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models

SurgUn, une méthode d'oubli de concepts pour modèles de diffusion texte-image, traite l'oubli comme une compétition contrôlée plutôt qu'une suppression directe. Via gradient ascendant sur cibles et descent sur distracteurs sémantiquement divers, elle réduit l'imbalance erase-retain et limite les dégâts collatéraux. Testée sur Stable Diffusion v1.5, SDXL et SANA-1.5.

Génération d'imagesSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.AI·

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Les boucles d'auto-évolution des LLM stagnent quand elles ne génèrent pas d'information apprenable. Cette étude identifie trois rôles (Proposer, Solver, Verifier) et trois designs système (co-évolution asymétrique, croissance de capacité, recherche proactive d'information) pour maintenir le gain d'information à travers les itérations sur des tâches de codage.

RaisonnementReinforcement learningGénération de code
SIG
72
HYP
25
arXiv cs.AI·

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 est une famille de modèles de langage de 3 milliards de paramètres entraînés sur des données synthétiques pour l'attribution d'évidences biomédicales. Elle surpasse ses modèles de base de +27% à +71% sur cinq benchmarks et rivalise avec GPT-5, tout en détectant les hallucinations et les erreurs d'attribution dans les directives cliniques.

BenchmarksFine-tuningSécurité IA
SIG
78
HYP
25
arXiv cs.AI·

No Plan, Yet Human: A Reactive Robotics Model Predicts Human Planning Failures on a Clinical Task

AICON, un modèle réactif de robotique basé sur la descente de gradient, prédit mieux que les modèles de planification les erreurs humaines sur la Tour de Londres (test cognitif). Sans lookahead, il reproduit l'ordre de difficulté des 24 problèmes et échoue comme les patients atteints de la maladie de Parkinson, suggérant que la capacité de planification réduite bascule vers un mode réactif.

RobotiqueRaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

\textsc{MasFACT}: Continual Multi-Agent Topology Learning via Geometry-Aware Posterior Transfer

MasFACT propose un cadre de transfert de posterior géométriquement conscient pour les systèmes multi-agents LLM. Il résout le problème de « topology forgetting » en préservant les structures de collaboration historiques lors de l'adaptation à de nouvelles tâches, via transport optimal Gromov-Wasserstein et adaptation PAC-Bayes conservative.

Multi-agentsAgents IALlama
SIG
72
HYP
18
arXiv cs.AI·

Strategic Over-Parameterization for Generalizable Low-Rank Adaptation

LoRA-Over améliore l'adaptation efficace en paramètres (PEFT) en enrichissant le paysage d'optimisation durant l'entraînement via sur-paramétrisation auxiliaire, puis en repliant cette enrichissement dans une structure LoRA standard à l'inférence. Évalué sur GLUE, MT-Bench, GSM8K et HumanEval avec LLaMA 2-7B et 3.1-8B, le framework surpasse LoRA vanilla sans coût d'inférence supplémentaire.

Fine-tuningLlamaBenchmarks
SIG
78
HYP
18
arXiv cs.AI·

MHMamba: Multi-Head Mamba for 3D Brain Tumor Segmentation

MHMamba combine une architecture U-Net avec un modèle state-space multi-tête (Mamba) pour la segmentation 3D de tumeurs cérébrales en IRM. La méthode maintient la complexité linéaire de Mamba tout en améliorant la modélisation des dépendances longue portée et la stabilité multimodale. Tests sur BraTS2021/2023 montrent gains en précision, cohérence des contours et détection des petites lésions.

VisionBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Étude de l'alignment drift : processus graduel où les sorties LLM deviennent moins contraintes par le message utilisateur actuel et plus façonnées par l'historique d'interaction, tout en restant cohérentes. Cadre mécaniste proposé distinguant signaux A/B, expliquant boucles de rétroaction et sélection de sous-motifs sur trois régimes interactionnels.

AlignementSécurité IAPapers
SIG
72
HYP
18
arXiv cs.AI·

Asking Back: Interaction-Layer Antidistillation Watermarks

Nouvelle approche de watermarking contre la distillation non autorisée d'LLM : des marqueurs comportementaux (questions de suivi, variantes basse fréquence, reformulations) injectés via prompt système. Testée sur 63 modèles LoRA distillés de Llama-3.3-70B, avec transfert de 88,9% (Gemma) à 45,2% (Qwen). Robustesse validée contre paraphrasage DIPPER et étude utilisateur (N=20) confirmant l'imperceptibilité.

Sécurité IAAlignementLlama
SIG
78
HYP
15
arXiv cs.AI·

Conservative AI for Safety-Sensitive Medical Image Restoration: Residual-Bounded CT-CTA Enhancement for Intracranial Aneurysm-Relevant Signal Recovery

Framework de restauration d'images médicales 2.5D avec résidus bornés pour améliorer les CT/CTA intracrâniens sans modifier les régions cliniquement sensibles. Le modèle ajoute un résidu appris via une carte de contrôle d'édition limitant magnitude et étendue spatiale. Sur 50 cas hors-distribution : PSNR 37.51 dB, taux d'édition iatrogène 4.0%, stabilité positive en 85.4% des 1000 runs Monte Carlo.

VisionSécurité IAÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

Physics-Guided Geometric Diffusion for Macro Placement Generation

MacroDiff+ est un framework de diffusion géométrique guidé par la physique pour l'optimisation du placement de macros en conception VLSI. Utilisant une architecture dual-domain (GNN hétérogènes + Transformer) et un échantillonnage guidé par gradients physiques, il réduit la longueur de fil de 6.1-6.2% sur les benchmarks ISPD2005 avec meilleure stabilité sur designs large-scale.

BenchmarksPapersRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

Avoiding Structural Failure Modes in Tabular Fair SSL: Online Primal-Dual Allocation under Confidence Gating

Article arXiv identifiant deux modes de défaillance structurels en apprentissage semi-supervisé équitable sur données tabulaires : Masking Collapse et Trivial Saturation. Propose OPDA (Online Primal-Dual Allocation), un contrôleur adaptatif qui ajuste dynamiquement les pénalités d'équité sans tuning par dataset. Évalué sur Adult, ACSIncome, COMPAS.

PapersBenchmarksSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

DeepArrhythmia: Segment-Contextualized ECG Arrhythmia Classification via Selective Evidence Acquisition

DeepArrhythmia est un framework multimodal pour la classification d'arythmies ECG au niveau du battement cardiaque. Il combine signal brut et image de forme d'onde, localise les pics R, et utilise des outils spécialisés pour l'extraction de rythme et morphologie. Le système route sélectivement entre états de preuve minimal et riche selon la confiance au niveau du segment.

Agents IAVisionMCP
SIG
72
HYP
18
arXiv cs.AI·

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injection de brouillons mathématiquement incorrects d'un petit modèle (Qwen2.5-Math-1.5B) dans l'entraînement GRPO d'un modèle plus fort (Mathstral-7B) améliore les performances sur MATH-500 (+1.62pp) et AIME 2025/2026 (+14.2pp à pass@1024). Le décalage intentionnel entre problèmes et brouillons est crucial : 71.98% sur MATH-500, meilleur résultat publié pour ce modèle.

Reinforcement learningRaisonnementBenchmarks
SIG
82
HYP
18
arXiv cs.AI·

Edge-AI-Driven Learning-to-Rank for Decentralized Task Allocation in Circular Smart Manufacturing

Framework de allocation de tâches décentralisée pour la fabrication circulaire, utilisant l'Edge-AI et un apprentissage basé sur le ranking. Chaque machine évalue les tâches avec ses informations locales (capacité, queue, contention). Résultats : réduction des délais, meilleure adhérence aux deadlines, efficacité énergétique améliorée en simulation.

Agents IAReinforcement learningInfrastructure
SIG
65
HYP
15
arXiv cs.AI·

Deep Reinforcement Learning Framework for Diversified Portfolio Management Across Global Equity Markets

Framework de deep reinforcement learning pour allocation dynamique de portefeuille sur marchés actions globaux. Soft Actor-Critic optimise les poids continus avec coûts de transaction et contraintes de diversification. Évaluation sur Nasdaq-100, Nikkei 225, Euro Stoxx 50 (2003-2026) : rendements anormaux significatifs sur Euro Stoxx 50, mais pas de surperformance statistique vs Buy and Hold sur tous les marchés.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
25
arXiv cs.AI·

A Theory of Training Profit-Optimal LLMs

Modèle économique combinant lois de scaling et théorie microéconomique pour caractériser le comportement rationnel des entreprises d'entraînement LLM. Analyse la maximisation du profit en régimes compute-bound et data-bound : en compute-bound, la taille optimale suit l'efficacité matérielle (FLOPs/$) à taux quasi-linéaire ; en data-bound, les dépenses d'entraînement optimales évoluent en D²/E.

BenchmarksPapersBusiness
SIG
75
HYP
15
arXiv cs.AI·

The Impact of AI Search on the Online Content Ecosystem: Evidence from Google and Reddit

Étude empirique sur l'impact des Google AI Overviews sur Reddit. Utilisant une stratégie d'identification basée sur la politique de modération (communautés SFW vs NSFW), les auteurs trouvent que les AI Overviews augmentent l'engagement dans les communautés SFW de +12% (commentaires) et +12.3% (utilisateurs), mais seulement pour le contenu expérientiel. L'introduction du Google AI Mode élimine ces gains.

DeepMindBenchmarksBusiness
SIG
78
HYP
15
arXiv cs.AI·

When Efficiency Backfires: Cascading LLMs Trigger Cascade Failure under Adversarial Attack

Les systèmes en cascade d'LLM, conçus pour optimiser efficacité et performance en routant les requêtes complexes vers des modèles puissants, sont vulnérables aux attaques adversariales ciblées. Une nouvelle attaque exploite les modèles légers et les mécanismes de décision interne pour dégrader simultanément la précision et l'efficacité des coûts.

Sécurité IAAgents IABenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Agentic Pipeline for Self-Synchronized Multiview Joint Angle Monitoring in Uncalibrated Environments

Pipeline agentic pour suivi d'angles articulaires multi-vue sans calibrage en environnements non contrôlés. Utilise deux caméras, synchronisation automatique par LLM multimodal, détection de pose 2D et sélection basée agent pour identifier le sujet cible. Validation contre système Vicon : MAE 5.97° ± 2.36°, corrélation Pearson 0.962 ± 0.014. Application : réhabilitation patients lésion médullaire.

Agents IAVisionRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

CAVE: A Structured Credit Assignment Approach for Fragmented Visual Evidence Reasoning

CAVE est une méthode d'attribution de crédit basée sur GRPO pour améliorer le raisonnement visuel fragmenté dans les VLMs. Elle évalue les étapes intermédiaires via trois signaux : mise à jour des croyances, acquisition de preuves et contrôle adaptatif du focus. TRACER-Bench, un nouveau benchmark, évalue le raisonnement sur quatre dimensions non-locales et sémantiquement confusables.

VisionRaisonnementBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Overcoming the Intrinsic Performance Limitations of MEMS IMU via Diffusion-Based Generative Learning

Un modèle de diffusion conditionnel basé sur U-Net synthétise des données IMU virtuelles haute fidélité à partir de capteurs IMU bas coût. Entraîné sur des mesures IMU haut de gamme comme références, le modèle améliore significativement la précision en positionnement et estimation d'attitude, et produit des nuages de points plus fins en cartographie aérienne.

VisionRobotique
SIG
72
HYP
28
arXiv cs.AI·

Haptic Rendering of Fractional-Order Viscoelasticity: Passivity and Rendering Fidelity

Article sur le rendu haptique de matériaux viscoélastiques fractionnaires. Les auteurs dérivent des conditions de passivité pour les modèles SLS (Standard Linear Solid) d'ordre fractionnaire sous discrétisation à mémoire courte, généralisant les résultats pour modèles Kelvin-Voigt, Maxwell et SLS entiers. Validations expérimentales et évaluations humaines incluses.

PapersRobotique
SIG
72
HYP
08
arXiv cs.AI·

A neurosymbolic Approach with Epistemic Deep Learning for Hierarchical Image Classification

Framework neurosymbolic combinant Swin Transformers, focal set reasoning et logique floue différentiable pour la classification d'images hiérarchiques. Capture l'incertitude épistémique via des focal sets dans l'espace d'embedding et applique des contraintes logiques via fonctions d'appartenance floue pour assurer la cohérence entre prédictions fines et grossières.

VisionRaisonnementSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

StreamPro: From Reactive Perception to Proactive Decision-Making in Streaming Video

StreamPro introduit StreamPro-Bench, un benchmark évaluant la compréhension proactive de vidéos en streaming selon trois axes : perception, raisonnement temporel et agentivité. Le framework propose une perte CB-Stream pour équilibrer l'imbalance de supervision et applique GRPO avec récompenses multi-niveaux. Résultats : 41.5 sur StreamPro-Bench vs 10.4 précédemment, 78.9 sur StreamingBench-RTVU.

VisionRaisonnementReinforcement learning
SIG
75
HYP
25
arXiv cs.AI·

ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

ManiSoft est un benchmark pour la manipulation vision-langage avec bras robotiques souples. Il inclut un simulateur couplant dynamiques soft-body réalistes et interactions contact-riches, 4 tâches de contrôle déformable, et 6 300 scènes avec trajectoires expertes. Les tests de 3 modèles révèlent des performances prometteuses en scènes nettes mais dégradation substantielle sous randomisation.

VisionRobotiqueBenchmarks
SIG
75
HYP
20
arXiv cs.AI·

Lost or Hidden? A Concept-Level Forgetting in Supervised Continual Learning

Étude du forgetting en continual learning via Sparse Autoencoders (SAEs). Les auteurs proposent un cadre diagnostic pour analyser comment l'information spécifique aux tâches évolue au niveau des concepts latents. Résultat : une grande partie du forgetting apparent est due à une perte d'accessibilité représentationnelle plutôt qu'à une suppression complète d'information.

PapersRaisonnementÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Les chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation sous contrainte budgétaire. Ils introduisent la « granularité conceptuelle » pour expliquer pourquoi certains concepts sont coûteux à contrôler, et proposent GRACE, un framework qui utilise la géométrie d'activation pour diagnostiquer les difficultés et réduire de 39,8% les évaluations nécessaires.

RaisonnementAlignementPapers
SIG
78
HYP
15
arXiv cs.AI·

LEAF: A Living Benchmark for Event-Augmented Forecasting

LEAF est un benchmark vivant pour évaluer les capacités de prévision des LLM en utilisant des événements multidimensionnels. Le système utilise des agents de récupération récursive et une validation croisée multi-agents pour fournir du contexte textuel aux modèles. Les tests montrent que les LLM exploitent les signaux d'événements complexes pour améliorer les prévisions boursières.

BenchmarksAgents IAMulti-agents
SIG
72
HYP
28
arXiv cs.AI·

DiPRL: Learning Discrete Programmatic Policies via Architecture Entropy Regularization

DiPRL propose une méthode d'apprentissage par renforcement programmatique qui génère des politiques discrètes interprétables sans étape de discrétisation post-hoc. Via régularisation d'entropie architecturale, le modèle converge vers des programmes discrets pendant l'entraînement, évitant la perte de performance et la nécessité d'ajustement fin supplémentaire.

Reinforcement learningRaisonnementPapers
SIG
72
HYP
18
arXiv cs.AI·

State-of-the-Art Claims Require State-of-the-Art Evidence

Étude critique des affirmations « state-of-the-art » en IA/ML. Analyse de 10 benchmarks publics révèle que plus de 50% des comparaisons de modèles top ne supportent pas les propriétés implicites de supériorité (effet significatif, consistance inter-tâches, robustesse). Les gains agrégés reposent souvent sur des datasets aberrants. Propose un langage de claim plus honnête sans expériences supplémentaires.

BenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

LARGER: Lexically Anchored Repository Graph Exploration and Retrieval

LARGER est un framework de récupération de contexte pour agents de codage au niveau repository. Il combine recherche lexicale et exploration de graphe structurel (imports, appels, hiérarchies de types) sans nécessiter de bases de données externes. Sur LocBench, il améliore la précision de +13.9 points (ou +11.8 avec hyperparamètres fixes) et gagne sur test generation et question-answering sur codebase.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Systematic Evaluation of Vision Transformers for Automated Cervical Cancer Classification: Optimization, Statistical Validation, and Clinical Interpretability

Étude d'optimisation systématique de Vision Transformers (ViT-Tiny) pour le dépistage du cancer du col utérin sur le dataset Herlev (917 images). Configuration optimale : 94,9%-95,2% de précision en validation croisée avec augmentation horizontale et pondération de classe (0,7 x 1,3). Grad-CAM valide l'interprétabilité clinique : attention sur noyaux, limites cellulaires et texture chromatinienne.

VisionBenchmarksÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

PropGuard: Safeguarding LLM-MAS via Propagation-Aware Exploration and Remediation

PropGuard est un framework de sécurité pour les systèmes multi-agents basés sur LLM (LLM-MAS). Il détecte et neutralise les injections malveillantes propagées entre agents via un graphe spatio-temporel dual et un inspecteur entraîné par GE-GRPO. Les tests sur 4 architectures et 5 scénarios d'attaque montrent une réduction significative du succès des attaques.

Multi-agentsSécurité IAAgents IA
SIG
72
HYP
18
arXiv cs.AI·

Detecting Verbatim LLM Copy-Paste in Homework

SteganoPrompt, un outil web open-source, détecte les copies verbatim d'énoncés d'exercices soumis à des LLM. Il encode une instruction invisible dans le prompt via le bloc Unicode Tags (U+E0000–U+E007F), créant une signature détectable dans la réponse du modèle. Testé sur 7 familles de LLM, l'approche contourne les limites des détecteurs post-hoc et ne nécessite pas la coopération du fournisseur.

ÉvaluationsSécurité IAPrompt engineering
SIG
75
HYP
15
arXiv cs.AI·

A Machine Learning Framework for EEG-Based Prediction of Treatment Efficacy in Chronic Neck Pain

Framework ML utilisant l'EEG pour prédire l'efficacité thérapeutique chez patients souffrant de douleurs cervicales chroniques. Pipeline de prétraitement rigoureux (suppression baseline, ICA, analyse spectrale) appliqué à EEG au repos et moteur. Revue systématique de 763 études (16 patients, 47 contrôles sains) pour informer la stratégie post-traitement.

ÉvaluationsPapers
SIG
62
HYP
15
arXiv cs.AI·

Modality vs. Morphology: A Framework for Time Series Classification for Biological Signals

Revue unifiée sur la classification de séries temporelles de signaux biologiques (EEG, EMG, ECG, PPG, oculomoteurs). Le cadre morphologie-modalité montre que la structure des ondes (pics, rafales, oscillations, dérives) détermine plus fortement les performances que l'architecture du modèle. Les biais inductifs alignés avec la dynamique physiologique améliorent interprétabilité et généralisation.

BenchmarksVisionPapers
SIG
72
HYP
15
arXiv cs.AI·

Phase Transitions in Driven Informational Systems: A Two-Field Perspective on Learning Theory and Non-Equilibrium Chemistry

Article théorique proposant un cadre unifié pour les transitions de phase en apprentissage profond (grokking, capacités émergentes) et en chimie hors-équilibre. Introduit deux champs gradients (taux de production d'entropie et quasi-potentiel informationnel) et deux paramètres d'ordre (seuil de rupture adversariale α†, seuil de couplage auto-référentiel κc) pour décrire les systèmes informationnels pilotés.

RaisonnementAlignementPapers
SIG
45
HYP
25
arXiv cs.AI·

AdaGraph: A Graph-Native Clustering Algorithm That Overcomes the Curse of Dimensionality and Enables Scientific Discovery

AdaGraph est un algorithme de clustering graph-native qui élimine la malédiction de la dimensionnalité en opérant sur la topologie kNN plutôt que sur des métriques euclidiennes. Sans spécifier k a priori, il identifie des modules de gènes en génomique (GSE14520, 10k gènes), atteint ARI=0.751 en clustering texte (20NG-6cat vs HDBSCAN 0.464), et surpasse Silhouette/Davies-Bouldin sur 10 benchmarks jusqu'à d=5000.

BenchmarksPapers
SIG
72
HYP
28
arXiv cs.AI·

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Étude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant retire sélectivement des actions légales de l'ensemble disponible pour la victime. Sur des jeux de poker (6 à 5 531 états) et deux domaines non-poker, le masquage appris cause plus de dégâts que le masquage aléatoire. L'attaque persiste sur Q-learning, PPO, NFSP, DQN et ne montre pas de récupération.

Reinforcement learningSécurité IABenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Une nouvelle méthode de credit assignment pour l'apprentissage par renforcement avec LLMs. IBPO (Implicit Behavior Policy Optimization) utilise des trajectoires contrefactuelles pour transformer les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks de raisonnement mathématique et code.

Reinforcement learningRaisonnementGénération de code
SIG
75
HYP
25
arXiv cs.AI·

Consent Chain Degradation in Embodied Multi-Agent Systems: Bridging the Gap Between AI Agent Governance and Robot Ethics

Article théorique sur la dégradation du consentement dans les chaînes de délégation entre robots autonomes. Introduit le framework CoRVE pour vérifier le consentement à travers les architectures multi-agents. Analyse les lacunes réglementaires dans l'UE AI Act, GDPR, Machinery Regulation et Product Liability Directive.

Multi-agentsRobotiqueSécurité IA
SIG
65
HYP
25
arXiv cs.AI·

MusicSynth: An Automated Pipeline for Generating Violin Fingerboard Animations from Sheet Music Using Optical Music Recognition

MusicSynth est un outil web open-source qui convertit automatiquement des partitions de violon (photo ou fichier) en vidéos animées montrant le positionnement des doigts sur le manche. Le système combine reconnaissance optique de musique (OMR), parsing MusicXML et rendu vidéo. Testé sur 110 partitions : 91,2% de reconnaissance des notes en musique imprimée, 99,1% de précision en positionnement des doigts.

VisionGénération de codeOpen source
SIG
72
HYP
25
arXiv cs.AI·

Task-Level AI Readiness Assessment for Business Process Management:The T-IPO Model and LARA Matrix in Financial-Services IT Operations

Papier arXiv proposant T-IPO et LARA, deux outils pour évaluer la capacité des agents LLM à gérer des tâches métier. LARA est une matrice 5 dimensions classant les tâches en 4 niveaux (L1-L4), avec poids 1.5× sur la sensibilité compliance. Validation sur 127 tâches (κ=0.80), réplication sur 3 institutions (κ=0.73). Auto-completion décroît de 95% (L1) à 40% (L3).

Agents IAÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.AI·

Measuring Changes in Instructor Class Design and Student Learning After the Release of Large Language Models (LLMs)

Étude mixte multi-cours dans une université américaine (Nouvelle-Angleterre) analysant l'impact des LLM sur la pédagogie. Données quantitatives rétrospectives, sondages d'instructeurs et d'étudiants, notes historiques pré/post-LLM. Documente les changements dans les méthodes d'étude, la conception des cours et les résultats d'apprentissage.

ÉvaluationsBusinessSécurité IA
SIG
65
HYP
25
arXiv cs.AI·

AI4BayesCode: From Natural Language Descriptions to Validated Modular Stateful Bayesian Samplers

AI4BayesCode traduit des descriptions en langage naturel en samplers MCMC validés et modulaires. Le système décompose les modèles bayésiens en blocs de sampling mappés à des composants intégrés, avec validation pré et post-génération. Une architecture stateful récursive permet la composition cohérente de composants développés indépendamment.

Génération de codeAgents IARaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Evolutionary Extreme Learning Machine of ab-initio Energy Landscapes for Crystal Structure Prediction using Manta Ray Optimization with Levy Flight

Algorithme d'optimisation par essaim (Manta Ray Foraging) amélioré avec vol de Lévy pour entraîner des machines d'apprentissage extrême (ELM) appliquées à la prédiction d'énergies de formation cristallines. La méthode EELM-MRFO-LF sélectionne les poids d'entrée via MRFO-Lévy et détermine analytiquement les poids de sortie par inverse de Moore-Penrose.

BenchmarksPapers
SIG
35
HYP
15
arXiv cs.AI·

From Reactive to Proactive: A Multi-Regulatory Empirical Analysis of 480 AI Incidents and a Data-Driven Governance Compliance Framework

Analyse de 480 incidents IA réels du AIID comparés aux cadres de gouvernance EU AI Act, NIST AI Risk Management Framework et GDPR. Révèle des lacunes substantielles dans la responsabilité post-déploiement. Propose le Proactive AI Governance Compliance Framework (PAGCF), méthodologie en 4 phases pour passer d'une gouvernance réactive à une assurance de conformité pré-déploiement.

RégulationSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.AI·

Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States

COAST (Contrastive Conceptor Activation Steering) améliore les modèles Vision-Language-Action en identifiant et en guidant les représentations latentes vers des sous-espaces critiques pour la réussite. Sur trois architectures distinctes, COAST augmente le taux de succès de +20% en simulation et +40% sur robots réels, sans entraînement supplémentaire.

VisionRobotiqueRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Harnessing AI for Inverse Partial Differential Equation Problems: Past, Present, and Prospects

Revue systématique des méthodes IA pour résoudre les problèmes inverses d'équations aux dérivées partielles (EDP). Couvre trois catégories : problèmes inverses, conception inverse et contrôle. Applications : imagerie médicale, géophysique, aérodynamique, systèmes thermiques. Enjeux : architectures informées par la physique, données limitées, quantification d'incertitude, modèles fondamentaux inverses.

PapersRaisonnementBenchmarks
SIG
65
HYP
25