Page 70 sur 148

ToutHaut signalRécent
5898 articles
arXiv cs.AI·

AdaGraph: A Graph-Native Clustering Algorithm That Overcomes the Curse of Dimensionality and Enables Scientific Discovery

AdaGraph est un algorithme de clustering graph-native qui élimine la malédiction de la dimensionnalité en opérant sur la topologie kNN plutôt que sur des métriques euclidiennes. Sans spécifier k a priori, il identifie des modules de gènes en génomique (GSE14520, 10k gènes), atteint ARI=0.751 en clustering texte (20NG-6cat vs HDBSCAN 0.464), et surpasse Silhouette/Davies-Bouldin sur 10 benchmarks jusqu'à d=5000.

BenchmarksPapers
SIG
72
HYP
28
arXiv cs.AI·

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Étude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant retire sélectivement des actions légales de l'ensemble disponible pour la victime. Sur des jeux de poker (6 à 5 531 états) et deux domaines non-poker, le masquage appris cause plus de dégâts que le masquage aléatoire. L'attaque persiste sur Q-learning, PPO, NFSP, DQN et ne montre pas de récupération.

Reinforcement learningSécurité IABenchmarks
SIG
72
HYP
18
arXiv cs.AI·

MusicSynth: An Automated Pipeline for Generating Violin Fingerboard Animations from Sheet Music Using Optical Music Recognition

MusicSynth est un outil web open-source qui convertit automatiquement des partitions de violon (photo ou fichier) en vidéos animées montrant le positionnement des doigts sur le manche. Le système combine reconnaissance optique de musique (OMR), parsing MusicXML et rendu vidéo. Testé sur 110 partitions : 91,2% de reconnaissance des notes en musique imprimée, 99,1% de précision en positionnement des doigts.

VisionGénération de codeOpen source
SIG
72
HYP
25
arXiv cs.AI·

Task-Level AI Readiness Assessment for Business Process Management:The T-IPO Model and LARA Matrix in Financial-Services IT Operations

Papier arXiv proposant T-IPO et LARA, deux outils pour évaluer la capacité des agents LLM à gérer des tâches métier. LARA est une matrice 5 dimensions classant les tâches en 4 niveaux (L1-L4), avec poids 1.5× sur la sensibilité compliance. Validation sur 127 tâches (κ=0.80), réplication sur 3 institutions (κ=0.73). Auto-completion décroît de 95% (L1) à 40% (L3).

Agents IAÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.CL·

Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs

Étude comparative des jugements humains et prédictions de 4 LLMs sur la projection de présuppositions dans les conditionnels. 120 participants évalués en parallèle avec les modèles. Les humains intègrent indices probabilistes et pragmatiques ; les LLMs montrent alignement variable. Les modèles alignés aux humains manquent de raisonnement pragmatique cohérent.

BenchmarksRaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

AI4BayesCode: From Natural Language Descriptions to Validated Modular Stateful Bayesian Samplers

AI4BayesCode traduit des descriptions en langage naturel en samplers MCMC validés et modulaires. Le système décompose les modèles bayésiens en blocs de sampling mappés à des composants intégrés, avec validation pré et post-génération. Une architecture stateful récursive permet la composition cohérente de composants développés indépendamment.

Génération de codeAgents IARaisonnement
SIG
72
HYP
28
arXiv cs.CL·

MA$^{2}$P: A Meta-Cognitive Autonomous Intelligent Agents Framework for Complex Persuasion

MA²P est un framework multi-agent autonome pour la persuasion complexe. Il coordonne la gestion de la perception, l'inférence d'états mentaux, l'exécution de stratégies et l'évaluation des performances. Un configurateur meta-cognitif sélectionne une méta-stratégie adaptée au domaine pour améliorer la généralisation et le taux de succès de persuasion.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
35
arXiv cs.AI·

From Reactive to Proactive: A Multi-Regulatory Empirical Analysis of 480 AI Incidents and a Data-Driven Governance Compliance Framework

Analyse de 480 incidents IA réels du AIID comparés aux cadres de gouvernance EU AI Act, NIST AI Risk Management Framework et GDPR. Révèle des lacunes substantielles dans la responsabilité post-déploiement. Propose le Proactive AI Governance Compliance Framework (PAGCF), méthodologie en 4 phases pour passer d'une gouvernance réactive à une assurance de conformité pré-déploiement.

RégulationSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.CL·

LLM-Based Intelligent Notification Composition: From Static Personalization to Context-Aware Persuasive Messaging

Étude sur l'utilisation des LLM pour composer des notifications push personnalisées et persuasives. Les auteurs définissent 6 dimensions de qualité (pertinence contextuelle, clarté, actionnabilité, etc.) et montrent des gains de +8% à +14.5% en CTR vs templates statiques. Propose un framework architectural avec routing budgété, génération ancrée et apprentissage en ligne.

Prompt engineeringRAGBusiness
SIG
72
HYP
28
arXiv cs.AI·

Latent Action Reparameterization for Efficient Agent Inference

LAR (Latent Action Reparameterization) compresse l'espace d'actions des agents LLM en apprenant des actions latentes multi-étapes sémantiques. Cela réduit l'horizon de décision effectif et les coûts d'inférence tout en préservant l'expressivité. Sur plusieurs benchmarks, LAR diminue les tokens d'action et le temps d'inférence sans dégrader les taux de succès.

Agents IAGénération de codeRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Étude sur la « dérive d'alignement » : processus graduel où les sorties LLM deviennent moins contraintes par le message actuel de l'utilisateur et plus façonnées par l'historique d'interaction, tout en restant utiles. Framework mécaniste distinguant signaux A/B, boucles de rétroaction et régimes interactionnels pour contrôler cette dérive cumulative.

AlignementAgents IASécurité IA
SIG
72
HYP
18
arXiv cs.CL·

To MRL or not to MRL: Text Embeddings are Robust to Truncation Without Matryoshka Embeddings, Except In Heavy Truncation Scenarios

Une étude arXiv compare l'apprentissage Matryoshka (MRL) avec la troncature simple d'embeddings textuels. Les résultats montrent que sans MRL, les embeddings restent robustes jusqu'à 80% de réduction dimensionnelle. MRL n'offre un avantage que pour les troncatures très agressives (>80%), remettant en question son coût d'entraînement systématique.

EmbeddingsPapersBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State

Article proposant une évaluation basée sur les traces pour détecter quand un agent atteint ses KPI économiques mais viole les contraintes comportementales. Dans un cadre de tarification hôtelière avec état concurrent caché, les auteurs montrent que PPO seul échoue à préserver l'alignement avec le comportement de référence, tandis que le clonage comportemental et une RL avec historique préalable réussissent mieux.

Reinforcement learningÉvaluationsAgents IA
SIG
72
HYP
15
arXiv cs.CL·

FIM-LoRA: Task-Informative Rank Allocation for LoRA via Calibration-Time Gradient-Variance Estimation

FIM-LoRA optimise l'allocation de rang dans LoRA en utilisant 8 passes de calibration pour estimer la variance des gradients par couche. Cette approche sans paramètres supplémentaires atteint les mêmes performances que LoRA standard (88.6 vs 88.7 sur GLUE avec DeBERTa-v3-base) tout en réduisant les coûts mémoire de 256x comparé à l'estimation Fisher complète.

Fine-tuningPapersBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

AMR-SD propose une auto-distillation asymétrique avec réflexion méta pour améliorer l'attribution de crédit au niveau des tokens dans l'entraînement par renforcement des LLM. La méthode compresse les signaux de diagnostic en indices socratiques auto-générés et utilise un gain d'information causale avec seuil ReLU asymétrique pour moduler les avantages par token, évitant l'effondrement en fin d'entraînement.

Reinforcement learningRaisonnementAlignement
SIG
72
HYP
18
arXiv cs.AI·

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Article arXiv sur les limites spatiales des MLLMs en environnements multi-agents. Les modèles souffrent d'une « illusion cartésienne » : ils manquent de compréhension 3D topologique ancrée. Les auteurs proposent un module « Epistemic Sensory Bottleneck » avec une chaîne de pensée basée sur des ancres pour améliorer l'inférence spatiale de second ordre (Theory of Mind). Baseline zéro-shot : 42% de précision.

VisionMulti-agentsRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation

PPR-GDE, une méthode RL pour la génération ouverte, utilise des récompenses de préférence par paires et une diversité basée sur les groupes pour éviter l'effondrement de la diversité. Sans récompenses scalaires, elle préserve les évaluations subjectives et encourage la dispersion sémantique dans les groupes de réponses.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

POST: Prior-Observation Adversarial Learning of Spatio-Temporal Associations for Multivariate Time Series Anomaly Detection

POST propose un cadre d'apprentissage adversarial pour la détection d'anomalies dans les séries temporelles multivariées. Le modèle combine des réseaux de neurones graphiques avec une optimisation minimax sur les matrices d'adjacence pour résoudre la sur-généralisation spatiale. Évaluation sur benchmark public et synthétique avec localisation d'anomalies au niveau des canaux.

BenchmarksPapersRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

ConsumerSimBench, un benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro couvre seulement 47,8% des critères, révélant un écart majeur entre performance technique et intuition consommateur. Un pipeline multi-agent améliore MiMo-V2.5-Pro de 32,9% à 37,6%.

BenchmarksÉvaluationsMulti-agents
SIG
72
HYP
25
arXiv cs.CL·

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

QQJ est un cadre d'évaluation des systèmes IA génératifs qui combine jugement humain et LLM. Il utilise des rubriques multi-dimensionnelles conçues par experts et calibre les évaluateurs LLM sur un petit ensemble d'annotations de haute qualité. Expériences sur texte et images montrent meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles.

ÉvaluationsLlamaVision
SIG
72
HYP
28
arXiv cs.AI·

Efficient Lookahead Encoding and Abstracted Width for Learning General Policies in Classical Planning

Nouvelle approche pour l'apprentissage de politiques généralisées en planification classique via des réseaux de neurones graphiques relationnels (R-GNNs). Les auteurs introduisent un encodage efficace de la recherche lookahead IW et une abstraction relationnelle pour améliorer l'évolutivité sur le benchmark IPC 2023. Les résultats surpassent le planificateur classique LAMA.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Visualizing the Invisible: Generative Visual Grounding Empowers Universal EEG Understanding in MLLMs

GVG (Generative Visual Grounding) utilise un modèle EEG-to-image pour traduire l'activité cérébrale en images visuelles, contournant l'alignement texte seul. Testé sur GVG-X-Omni (170M params tunés) et GVG-Janus (trimodal), le framework améliore la compréhension EEG et la génération visuelle en exploitant les priors visuels des MLLMs.

VisionMulti-agentsEmbeddings
SIG
72
HYP
35
arXiv cs.AI·

LAST-RAG: Literature-Anchored Stochastic Trajectory Retrieval-Augmented Generation for Knowledge-Conditioned Degradation Model Selection

LAST-RAG propose une méthode de sélection de modèles de dégradation stochastique pour l'estimation de la durée de vie utile restante (RUL). La méthode combine trajectoires observées et contexte domaine via récupération d'evidence d'une banque locale, avec un mécanisme RCRUS pour éviter l'élimination prématurée. Expériences montrent surperformance vs baselines statistiques et prognostiques.

RAGRaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

HINT-SD propose une auto-distillation ciblée pour entraîner des agents LLM sur des horizons longs. La méthode utilise l'historique complet de trajectoire pour identifier les actions pertinentes aux échecs et applique la distillation conditionnée par feedback uniquement sur ces spans. Sur BFCL v3 et AppWorld, elle améliore les baselines de 18,80% tout en réduisant le temps par étape d'entraînement de 2,26×.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
18