Page 68 sur 148

ToutHaut signalRécent
5891 articles
arXiv cs.AI·

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

VideoDR est le premier benchmark pour le video question answering en domaine ouvert, combinant extraction visuelle multi-frames, récupération web itérative et raisonnement multi-hop. L'évaluation de modèles multimodaux (closed/open-source) montre que le paradigme Agentic n'est pas systématiquement supérieur au Workflow; les défis clés sont la dérive d'objectif et la cohérence long-horizon.

Agents IAVisionRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

When Does Non-Uniform Replay Matter in Reinforcement Learning?

Étude sur l'efficacité du replay non-uniforme en RL off-policy. Les auteurs identifient trois facteurs clés : volume de replay, récence des transitions et entropie de la distribution d'échantillonnage. Ils proposent Truncated Geometric replay, qui privilégie les expériences récentes tout en maintenant haute entropie, améliorant l'efficacité d'échantillonnage en régimes bas-volume.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Agentic AI Governance and Lifecycle Management in Healthcare

Des chercheurs proposent UALM (Unified Agent Lifecycle Management), un cadre de gouvernance pour les systèmes d'IA agentiques en santé. Le modèle adresse la prolifération d'agents (agent sprawl) via cinq couches de contrôle : registre d'identité, orchestration, gestion des données PHI, application de politiques runtime avec kill-switch, et décommissionnement lié à la révocation de credentials.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models

SurgUn, une méthode d'oubli de concepts pour modèles de diffusion texte-image, traite l'oubli comme une compétition contrôlée plutôt qu'une suppression directe. Via gradient ascendant sur cibles et descent sur distracteurs sémantiquement divers, elle réduit l'imbalance erase-retain et limite les dégâts collatéraux. Testée sur Stable Diffusion v1.5, SDXL et SANA-1.5.

Génération d'imagesSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.AI·

Embracing Biased Transition Matrices for Complementary-Label Learning with Many Classes

Les méthodes d'apprentissage par étiquettes complémentaires (CLL) restent limitées aux classifications à 10 classes. Cet article propose BICL, un cadre qui utilise intentionnellement des matrices de transition biaisées (non-uniformes) pour restreindre les étiquettes complémentaires. Sur CIFAR-100 et TinyImageNet-200, BICL améliore la précision de plus de 7× par rapport aux méthodes traditionnelles.

PapersBenchmarksÉvaluations
SIG
72
HYP
15
arXiv cs.LG·

Lost or Hidden? A Concept-Level Forgetting in Supervised Continual Learning

Étude diagnostique du catastrophic forgetting en continual learning via Sparse Autoencoders. Framework analyse comment l'information spécifique aux tâches évolue au niveau des concepts latents. Résultat : majorité de l'oubli apparent est récupérable sous hypothèse de linéarité ; dégradation due à l'accessibilité représentationnelle plutôt qu'à l'effacement complet.

PapersRaisonnementVision
SIG
72
HYP
15
arXiv cs.AI·

GRAFT: Decoupling Ranking and Calibration for Survival Analysis

GRAFT est un modèle AFT hybride pour l'analyse de survie qui découple le classement pronostique de l'étalonnage des estimations. Il combine un modèle AFT linéaire avec un réseau résiduel non-linéaire et des portes stochastiques pour la sélection de features. Entraîné sur une perte alignée C-index avec imputation conditionnelle, il surpasse les baselines en discrimination et calibration.

PapersBenchmarksRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning

SSL4RL utilise des tâches d'apprentissage auto-supervisé (rotation d'images, reconstruction de patches masqués) comme signaux de récompense pour l'entraînement par renforcement de modèles vision-langage. Le framework élimine le besoin de données de préférence humaine et améliore les performances sur des benchmarks de raisonnement vision-centric et vision-langage.

VisionReinforcement learningRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

MindMelody est un système fermé en temps réel qui génère de la musique personnalisée à partir de signaux EEG. Un modèle Transformer-GNN décode l'EEG en états émotionnels (Valence-Arousal), un LLM avec RAG formule des plans d'intervention, et un contrôleur EEG hiérarchique guide la synthèse audio. Une boucle de rétroaction continue adapte les paramètres selon l'EEG de l'utilisateur.

RaisonnementRAGGénération de code
SIG
72
HYP
35
arXiv cs.AI·

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Les pipelines RL asynchrones pour agents LLM perdent les anciens logits historiques nécessaires à la correction off-policy PPO, entrelançant correction de discordance et correction de staleness. L'article propose trois stratégies d'acquisition (snapshot, modèle dédié, interruption) et une méthode PPO-EWMA approximée pour préserver la sémantique de correction découplée.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Investigation into In-Context Learning Capabilities of Transformers

Étude empirique systématique des capacités d'apprentissage en contexte des transformers sur des tâches de classification binaire Gaussienne. Les auteurs analysent comment la précision dépend de la dimension d'entrée, du nombre d'exemples en contexte et de la diversité des tâches d'entraînement. Ils caractérisent l'émergence du surapprentissage bénin et identifient les régions paramétriques critiques.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

SIPO stabilise l'alignement des modèles de diffusion sur les préférences humaines en résolvant l'instabilité d'entraînement et le biais off-policy. La méthode introduit DPO-C&M pour clipper les timesteps non-informatifs et un schéma de pondération par importance conscient des timesteps. Tests sur SD1.5, SDXL, CogVideoX-2B/5B et Wan2.1-1.3B montrent amélioration vs Diffusion-DPO.

Génération d'imagesGénération de vidéosReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

Unlocking the Potential of Diffusion Language Models through Template Infilling

Template Infilling (TI) est une méthode de conditioning pour les Diffusion Language Models qui aligne des ancres structurelles sur l'ensemble de l'espace de réponse cible, remplaçant le prefix prompting. Évaluée sur raisonnement mathématique, génération de code et planification, TI améliore les performances de 9,40% et accélère la génération multi-token.

Génération de codeRaisonnementBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Limitations of Sequence-Based Protein Representations for Parkinson's Disease Classification: A Leakage-Free Benchmark

Étude comparative de représentations protéiques (composition acides aminés, k-mers, ProtBERT, descripteurs physicochimiques) pour classifier la maladie de Parkinson. ProtBERT + MLP atteint F1=0.704±0.028, ROC-AUC=0.748±0.047. Les séquences primaires seules montrent un pouvoir discriminant limité; des features structurelles/fonctionnelles sont nécessaires.

BenchmarksPapersEmbeddings
SIG
72
HYP
15
arXiv cs.AI·

Representational Alignment with Chemical Induced Fit for Molecular Relational Learning

ReAlignFit, une méthode d'apprentissage relationnel moléculaire, améliore la stabilité des modèles en alignant les représentations de sous-structures via un biais inspiré du mécanisme chimique d'ajustement induit. Testée sur 9 datasets, elle surpasse les modèles existants et renforce la robustesse face aux changements de distribution (règles et scaffolds).

PapersBenchmarksRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

Étude sur le biais de genre extrinsèque dans les modèles de langage préentraînés en bengali. Construction de 4 datasets annotés manuellement (analyse de sentiment, détection de toxicité, discours haineux, sarcasme) avec perturbations de genre minimales. Proposition de RandSymKL, stratégie de débiaisage combinant divergence KL symétrique et perte cross-entropy, réduisant le biais tout en maintenant la précision.

BenchmarksSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.AI·

Geometry-aware 4D Video Generation for Robot Manipulation

Modèle de génération vidéo 4D pour la manipulation robotique qui enforce la cohérence multi-vue 3D via supervision par alignement de pointmap cross-view. Génère des séquences vidéo spatio-temporellement alignées à partir d'une seule image RGB-D par vue, sans poser en entrée. Démontre stabilité visuelle supérieure et récupération de trajectoires d'effecteur robot sur datasets simulés et réels.

RobotiqueGénération de vidéosVision
SIG
72
HYP
18
arXiv cs.CL·

Taming "Zombie'' Agents: A Markov State-Aware Framework for Resilient Multi-Agent Evolution

AgentRevive propose un cadre Markov pour l'évolution résiliente de systèmes multi-agents LLM. Au lieu de supprimer agressivement les agents défaillants, la méthode utilise des transitions d'état souples (Actif/Standby/Terminé) avec un estimateur de risque d'hallucination. Résultats : surpasse les baselines sur raisonnement général, tâches spécialisées et défis d'hallucination, réduisant la consommation de tokens.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
25
arXiv cs.AI·

GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games

GVGAI-LLM est un benchmark de jeux vidéo pour évaluer le raisonnement spatial et la résolution de problèmes des LLM. Basé sur le framework General Video Game AI, il contient 118 jeux en ASCII testant la planification et le raisonnement logique. Les évaluations zéro-shot révèlent des limitations persistantes des modèles actuels en raisonnement spatial, partiellement améliorées par prompting structuré.

BenchmarksRaisonnementAgents IA
SIG
72
HYP
25
arXiv cs.AI·

Agents for Experiments, Experiments for Agents: A Design Grammar for AI-Enabled Experimental Science

SEED est un framework qui représente les conditions expérimentales en graphes d'acteurs typés pour étudier les systèmes multi-agents et workflows humain-IA. Il permet de décrire les conditions, évaluer la nouveauté structurelle et générer des designs candidats sous contraintes. Test empirique sur triage médical montre que SEED-guided designs offrent meilleure traçabilité des changements d'interaction et gouvernance.

Agents IAMulti-agentsÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Whispers in the Noise: Surrogate-Guided Concept Awakening via a Multi-Agent Framework

ConceptAgent, un framework multi-agent sans entraînement, contourne l'effacement de concepts dans les modèles de diffusion en exploitant la dynamique du débruitage. L'approche black-box réveille des concepts supprimés en initialisant la trajectoire de débruitage via des états bruyants guidés par substitut, sans accès aux paramètres du modèle.

Multi-agentsSécurité IAGénération d'images
SIG
72
HYP
35
arXiv cs.AI·

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Nouvelle méthode IBAL pour renforcer la robustesse du MARL face aux perturbations d'interactions inter-agents. Le framework utilise une approche théorique de l'information pour construire des attaques qui dégradent la coordination en perturbant observations et actions, puis entraîne les agents à rester fiables. Amélioration démontrée sur baselines existants et scénarios d'agents manquants.

Multi-agentsReinforcement learning
SIG
72
HYP
18