Page 67 sur 148

ToutHaut signalRécent
5885 articles
arXiv cs.AI·

Experiment-as-Code Labs: A Declarative Stack for AI-Driven Scientific Discovery

Experiment-as-Code Labs propose un paradigme où les expériences scientifiques sont encodées en configurations déclaratives compilables vers des APIs d'instruments. Les agents IA formulent des hypothèses, un système effectue analyses de programme et orchestration, puis les expériences s'exécutent via contrôle d'équipements physiques. Stack générique science/lab/instrument-agnostique.

Agents IAPapersRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

When Does Non-Uniform Replay Matter in Reinforcement Learning?

Étude sur l'efficacité du replay non-uniforme en RL off-policy. Les auteurs identifient trois facteurs clés : volume de replay, récence des transitions et entropie de la distribution d'échantillonnage. Ils proposent Truncated Geometric replay, qui privilégie les expériences récentes tout en maintenant haute entropie, améliorant l'efficacité d'échantillonnage en régimes bas-volume.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Agentic AI Governance and Lifecycle Management in Healthcare

Des chercheurs proposent UALM (Unified Agent Lifecycle Management), un cadre de gouvernance pour les systèmes d'IA agentiques en santé. Le modèle adresse la prolifération d'agents (agent sprawl) via cinq couches de contrôle : registre d'identité, orchestration, gestion des données PHI, application de politiques runtime avec kill-switch, et décommissionnement lié à la révocation de credentials.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Limitations of Sequence-Based Protein Representations for Parkinson's Disease Classification: A Leakage-Free Benchmark

Étude comparative de représentations protéiques (composition acides aminés, k-mers, ProtBERT, descripteurs physicochimiques) pour classifier la maladie de Parkinson. ProtBERT + MLP atteint F1=0.704±0.028, ROC-AUC=0.748±0.047. Les séquences primaires seules montrent un pouvoir discriminant limité; des features structurelles/fonctionnelles sont nécessaires.

BenchmarksPapersEmbeddings
SIG
72
HYP
15
arXiv cs.AI·

Expectation and Acoustic Neural Network Representations Enhance Music Identification from Brain Activity

Des chercheurs montrent que combiner des représentations acoustiques et prédictives d'un réseau de neurones artificiels améliore l'identification musicale à partir d'activité cérébrale (EEG). Les modèles préentraînés sur ces deux types de représentations surpassent les baselines et leurs gains sont complémentaires. Cette approche ouvre la voie à des modèles EEG génériques fondés sur les principes du codage cortical.

ÉvaluationsRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Les pipelines RL asynchrones pour agents LLM perdent les anciens logits historiques nécessaires à la correction off-policy PPO, entrelançant correction de discordance et correction de staleness. L'article propose trois stratégies d'acquisition (snapshot, modèle dédié, interruption) et une méthode PPO-EWMA approximée pour préserver la sémantique de correction découplée.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

How Wrong Can Your Counterfactual Be? Quantifying Confounding Bias for Continuous Treatments without a Control Group

Framework de causal inference pour stress testing financier en données de panel avec traitement continu sans groupe contrôle. Propose une enveloppe de confounding en forme fermée paramétrée par deux sensibilités, combine identification partielle et conformal prediction pondérée. Montre que modèles prédictifs standard restent biaisés causalement sur données de chômage US.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Embracing Biased Transition Matrices for Complementary-Label Learning with Many Classes

Les méthodes d'apprentissage par étiquettes complémentaires (CLL) restent limitées aux classifications à 10 classes. Cet article propose BICL, un cadre qui utilise intentionnellement des matrices de transition biaisées (non-uniformes) pour restreindre les étiquettes complémentaires. Sur CIFAR-100 et TinyImageNet-200, BICL améliore la précision de plus de 7× par rapport aux méthodes traditionnelles.

PapersBenchmarksÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

A Scalable Tool for Measuring Manner and Result Verbs in Developmental Language Research

Outil computationnel pour classifier les verbes de manière et de résultat à grande échelle. Utilise des prompts linguistiques avec LLM pour générer des annotations sur MASC et InterCorp (436 classes VerbNet). Classifier RoBERTa atteint 89,6% de précision sur trois datasets gold-standard. Applicable à la recherche développementale sur la sémantique verbale.

PapersBenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

Spatiotemporal Robustness of Temporal Logic Tasks using Multi-Objective Reasoning

Article arXiv proposant une notion de robustesse spatiotemporelle (STR) pour les spécifications de logique temporelle sur signaux discrets. Formalisée comme problème de raisonnement multi-objectif via ordre partiel, STR capture perturbations spatiales et temporelles conjointes. Applicable aux systèmes multi-agents, villes intelligentes, contrôle du trafic aérien. Algorithmes de monitoring proposés.

Multi-agentsRaisonnementSécurité IA
SIG
72
HYP
15
arXiv cs.CL·

Effort as Ceiling, Not Dial: Reasoning Budget Does Not Modulate Cognitive Cost Alignment Between Humans and Large Reasoning Models

Les grands modèles de raisonnement (LRM) génèrent des traces alignées avec les temps de réaction humains, mais cet alignement persiste indépendamment du budget de raisonnement en inférence. Étude sur GPT-OSS-20B et GPT-OSS-120B : l'allocation de tokens suit les patterns de difficulté humains et reste invariante across effort levels, suggérant que l'alignement cognitif est figé au training time.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Les boucles d'auto-évolution des LLM stagnent quand elles ne génèrent pas d'information apprenable. Cette étude identifie trois rôles (Proposer, Solver, Verifier) et trois designs système (co-évolution asymétrique, croissance de capacité, recherche proactive d'information) pour maintenir le gain d'information à travers les itérations sur des tâches de codage.

RaisonnementReinforcement learningGénération de code
SIG
72
HYP
25
arXiv cs.LG·

LEAF: A Living Benchmark for Event-Augmented Forecasting

LEAF est un benchmark vivant pour évaluer les capacités de prévision des LLM en utilisant des événements multidimensionnels. Le système utilise des agents de récupération récursive et une validation croisée dual-agent pour fournir du texte auxiliaire pertinent. Les tests montrent que les LLM exploitent les signaux d'événements complexes pour améliorer les prévisions, notamment sur les actions boursières.

BenchmarksAgents IAMulti-agents
SIG
72
HYP
28
arXiv cs.CL·

Taming "Zombie'' Agents: A Markov State-Aware Framework for Resilient Multi-Agent Evolution

AgentRevive propose un cadre Markov pour l'évolution résiliente de systèmes multi-agents LLM. Au lieu de supprimer agressivement les agents défaillants, la méthode utilise des transitions d'état souples (Actif/Standby/Terminé) avec un estimateur de risque d'hallucination. Résultats : surpasse les baselines sur raisonnement général, tâches spécialisées et défis d'hallucination, réduisant la consommation de tokens.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
25
arXiv cs.AI·

EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models

EmergentBridge améliore les modèles d'embedding multimodaux unifiés pour les paires de modalités non appariées (audio↔profondeur, infrarouge↔audio). La méthode apprend un mappage produisant un « noisy bridge anchor » et applique l'alignement dans un sous-espace orthogonal, préservant la structure d'alignement existante. Résultats sur 9 datasets : surpasse les baselines en classification et retrieval zero-shot.

EmbeddingsVisionMulti-agents
SIG
72
HYP
18
arXiv cs.CL·

AMATA: Adaptive Multi-Agent Trajectory Alignment for Knowledge-Intensive Question Answering

AMATA est un framework multi-agent adaptatif pour le question-answering intensif en connaissances. Six agents spécialisés collaborent via des actions structurées pour améliorer la cohérence factuelle et réduire les hallucinations. Le système formalise la collaboration comme un problème d'alignement de trajectoires avec apprentissage des préférences intra et inter-agents.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models

SurgUn, une méthode d'oubli de concepts pour modèles de diffusion texte-image, traite l'oubli comme une compétition contrôlée plutôt qu'une suppression directe. Via gradient ascendant sur cibles et descent sur distracteurs sémantiquement divers, elle réduit l'imbalance erase-retain et limite les dégâts collatéraux. Testée sur Stable Diffusion v1.5, SDXL et SANA-1.5.

Génération d'imagesSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.CL·

Beyond Transcripts: Iterative Peer-Editing with Audio Unlocks High-Quality Human Summaries of Conversational Speech

Étude comparative de 10 workflows d'annotation pour la résumé de parole conversationnelle. Les résumés basés sur audio sont moins informatifs que ceux basés sur transcripts, mais l'édition itérative par pairs avec audio compense cette différence. Validation de cette approche pour créer des benchmarks intégrant informations lexicales et prosodiques.

BenchmarksVoixÉvaluations
SIG
72
HYP
18