Page 17 sur 138

ToutHaut signalRécent
5487 articles
arXiv cs.LG·

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba propose une architecture basée sur Mamba pour prédire des séries temporelles cliniques irrégulières. Le modèle estime la fiabilité des observations selon leur manque et délai écoulé, intègre informations court/long terme via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, gains AUPRC de 7,51%, 7,80% et 10,15% respectivement.

BenchmarksRaisonnementPapers
SIG
78
HYP
15
arXiv cs.AI·

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Analyse théorique complète de la dynamique des gradients dans les têtes d'attention des transformers sous entraînement cross-entropy. Les auteurs établissent une loi de routage basée sur l'avantage et une mise à jour pondérée par responsabilité, montrant que l'optimisation crée des variétés bayésiennes qui implémentent le raisonnement probabiliste en contexte.

RaisonnementPapersBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

OptimusVLA, un modèle Vision-Langage-Action hiérarchique, améliore la manipulation robotique via deux mémoires : Global Prior Memory (remplace le bruit gaussien par des priors de trajectoires similaires) et Local Consistency Memory (assure la cohérence temporelle). Résultats : 98.6% sur LIBERO, +13.5% vs pi_0 sur CALVIN, 2.9x plus rapide en inférence.

VisionRobotiqueAgents IA
SIG
78
HYP
25
arXiv cs.AI·

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 est une famille de modèles de langage de 3 milliards de paramètres entraînés sur des données synthétiques pour l'attribution d'évidences biomédicales. Elle surpasse ses modèles de base de +27% à +71% sur cinq benchmarks et rivalise avec GPT-5, tout en détectant les hallucinations et les erreurs d'attribution dans les directives cliniques.

BenchmarksFine-tuningSécurité IA
SIG
78
HYP
25
arXiv cs.AI·

The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level

Étude comparative de l'interprétabilité des architectures Mixture-of-Experts (MoE) vs réseaux denses. Les experts MoE montrent moins de polysémantique neuronale que les FFN denses, particulièrement avec routage sparse. Les experts fonctionnent comme des spécialistes de tâches linguistiques fines (ex: fermeture de crochets LaTeX), pas comme des spécialistes de domaines larges.

SIG
78
HYP
15
arXiv cs.AI·

SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

SkillMOO optimise les bundles de compétences pour agents de codage via recherche multi-objectif (NSGA-II) sur taux de réussite et coût d'inférence. Sur 16 tâches SkillsBench, le framework atteint le meilleur rang de pass rate sur 11/12 tâches non-nulles, réduisant les coûts jusqu'à 31,7% et gagnant jusqu'à 21 points de pourcentage en taux de réussite.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

DSPR: Dual-Stream Physics-Residual Networks for Trustworthy Industrial Time Series Forecasting

DSPR (Dual-Stream Physics-Residual Networks) propose un cadre de prévision de séries temporelles industrielles qui découple les patterns temporels stables des dynamiques résiduelles dépendantes du régime. Via un module de fenêtre adaptative et un graphe dynamique guidé par la physique, le modèle atteint 99% de précision de conservation et 97,2% de ratio de variation totale sur quatre benchmarks industriels.

BenchmarksRaisonnementInfrastructure
SIG
78
HYP
25
arXiv cs.AI·

Attractor-Vascular Coupling Theory: Formal Grounding and Empirical Validation for AAMI-Standard Cuffless Blood Pressure Estimation from Smartphone Photoplethysmography

Théorie du couplage attracteur-vasculaire (AVCT) : cadre mathématique montrant que la géométrie de l'attracteur cardiaque encode l'information de pression artérielle. Modèle LightGBM calibré sur PPG smartphone atteint MAE 2.05 mmHg (SBP) et 1.67 mmHg (DBP) en validation LOSO-CV stricte (46 sujets, 29,684 fenêtres), satisfaisant critères AAMI/IEEE SP10. PPG seul égale ECG+PPG à 0.05 mmHg près.

PapersBenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

AgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur des configurations inédites. Les agents testés (Cursor Agent, Claude Code, Codex) atteignent des speedups jusqu'à 6.89x, mais montrent des faiblesses en généralisation pour PyTorch-to-HIP.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

MixSD est une méthode de fine-tuning sans modèle externe qui injecte des connaissances en mélangeant dynamiquement les tokens du modèle lui-même : une branche « expert » observant le fait à injecter, une branche « naïve » reflétant les priors originaux. Sur benchmarks de QA et d'édition de connaissances, MixSD retient jusqu'à 100% des capacités du modèle de base contre 1% pour SFT standard.

Fine-tuningRaisonnementPapers
SIG
78
HYP
15
arXiv cs.CL·

SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning

SEMA-RAG est un framework multi-agent pour la génération augmentée par récupération (RAG) appliquée au raisonnement médical. Il décompose le processus en trois agents spécialisés : interprétation clinique, exploration itérative de documents, et adjudication des preuves. Testé sur 5 benchmarks et 5 backbones LLM, il améliore les baselines de +6,46 points de précision en moyenne.

Multi-agentsRAGRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization

Méthode d'adaptation de vocabulaire parameter-efficient pour améliorer la tokenization des LLM sur domaines spécialisés (légal, médical). Testée sur Llama-3.1-8B et Qwen2.5-7B : réduit le temps d'entraînement de 35-55% vs continual pretraining, diminue les paramètres de 37% vs expansion-only, améliore la qualité des résumés via tokens domain-spécifiques.

Fine-tuningLlamaQwen
SIG
78
HYP
15
arXiv cs.CL·

BELIEF: Structured Evidence Modeling and Uncertainty-Aware Fusion for Biomedical Question Answering

BELIEF combine modélisation structurée des preuves et fusion consciente de l'incertitude pour la réponse à questions biomédicales. Le framework convertit documents récupérés en objets d'evidence (attributs cliniques, qualité source, pertinence, force de support) et fusionne deux chemins : symbolique (théorie Dempster-Shafer) et neural (LLM). Résultats SOTA sur PubMedQA, MedQA, MedMCQA avec 5 backbones LLM.

RAGRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Internalizing Tool Knowledge in Small Language Models via QLoRA Fine-Tuning

Des chercheurs montrent que des petits modèles (Gemma 4 E4B, Qwen3-4B) fine-tunés avec QLoRA 8-bit internalisent la connaissance des outils sans nécessiter leurs schémas en prompt. Sur AssetOpsBench, les modèles fine-tunés surpassent les baselines non fine-tunés : réduction de 82,6% de la longueur d'entrée, AT-F1 de 0,65 vs 0,47, et 2,5× plus rapide pour Qwen3.

Fine-tuningAgents IAQwen
SIG
78
HYP
15
arXiv cs.CL·

Systematic Evaluation of the Quality of Synthetic Clinical Notes Rephrased by LLMs at Million-Note Scale

Évaluation systématique de notes cliniques synthétiques générées par LLM à l'échelle du million de notes. L'étude montre que les notes synthétiques préservent les informations cliniques essentielles pour les tâches grossières mais perdent les détails fins pour le codage ICD. Le rephrasing par chunks réduit cette perte mais diminue la précision factuelle.

BenchmarksÉvaluationsSécurité IA
SIG
78
HYP
15
arXiv cs.CL·

AutoVecCoder: Teaching LLMs to Generate Explicitly Vectorized Code

AutoVecCoder enseigne aux LLMs à générer du code vectorisé explicite via SIMD. Le framework combine VecPrompt (synthèse de données pour injecter la connaissance des intrinsics) et VecRL (apprentissage par renforcement aligné sur l'efficacité). AutoVecCoder-8B atteint l'état de l'art sur SimdBench (SSE/AVX) et surpasse parfois les optimisations -O3.

Génération de codeReinforcement learningBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

PROTEA: Offline Evaluation and Iterative Refinement for Multi-Agent LLM Workflows

PROTEA est une interface pour déboguer et affiner les workflows multi-agents LLM hors ligne. Elle évalue les sorties intermédiaires avec des rubriques configurables, localise les goulots d'étranglement via le graphe du workflow, et génère des révisions de prompts ciblées. Sur deux workflows en production, PROTEA améliore la précision de 64,3% à 83,9% et le Hit@5 de 0,30 à 0,38.

Multi-agentsAgents IAPrompt engineering
SIG
78
HYP
18
arXiv cs.AI·

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

LongMINT est un benchmark évaluant la capacité des agents à gérer la mémoire dans des contextes longs (jusqu'à 1,8M tokens) avec interférences multiples. 15.6k paires QA sur 4 domaines (suivi d'état, dialogue, révisions Wikipedia, commits GitHub). 7 systèmes testés (LLMs, RAG, agents) obtiennent 27,9% de précision moyenne, limités par la récupération et la construction mémoire.

Agents IABenchmarksRAG
SIG
78
HYP
15
arXiv cs.AI·

EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective

EvoMemBench est un benchmark unifié évaluant la mémoire des agents LLM selon deux axes : portée (intra-épisode vs. inter-épisode) et contenu (orienté connaissance vs. exécution). Comparaison de 15 méthodes de mémoire : les baselines long-contexte restent compétitives, les méthodes par récupération dominent pour les tâches intensives en connaissances, les méthodes procédurales excèlent pour l'exécution.

Agents IABenchmarksRaisonnement
SIG
78
HYP
18
arXiv cs.AI·

AgentWall: A Runtime Safety Layer for Local AI Agents

AgentWall est une couche de sécurité runtime pour agents IA locaux. Elle intercepte les actions proposées par l'agent avant exécution, les évalue contre une politique déclarative explicite, requiert approbation humaine pour opérations sensibles, et enregistre un audit complet. Implémentée comme proxy MCP et plugin OpenClaw, elle atteint 92,9% de précision d'application de politique avec surcharge sub-milliseconde.

Agents IASécurité IAMCP
SIG
78
HYP
25
arXiv cs.AI·

Reasoning Can Be Restored by Correcting a Few Decision Tokens

Les modèles de raisonnement surpassent les LLM de base sur les benchmarks complexes. Une étude révèle que l'avantage provient d'un petit ensemble de tokens décisionnels précoces (~8% sur Qwen3-0.6B), concentrés en phase de planification. Une intervention sélective du modèle de raisonnement sur ces tokens critiques restaure les performances sans surcoût computationnel majeur.

RaisonnementBenchmarksQwen
SIG
78
HYP
15
arXiv cs.AI·

Reliability and Effectiveness of Autonomous AI Agents in Supply Chain Management

Étude des agents IA autonomes dans les chaînes d'approvisionnement multi-échelons via le Beer Game du MIT. Les modèles de raisonnement réduisent les coûts de 67% vs équipes humaines, mais révèlent un « effet bullwhip agent » : amplification de l'instabilité décisionnelle entre échelons. Un cadre GRPO de post-entraînement par renforcement sur récompenses système améliore la fiabilité.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

MADP: A Multi-Agent Pipeline for Sustainable Document Processing with Human-in-the-Loop

MADP est une architecture multi-agent pour l'automatisation des documents en entreprise, combinant classification deep learning et extraction LLM avec validation humaine. Déployée sur 955 documents réels, elle atteint 97% d'automatisation complète et réduit les besoins en FTE de 70%. Accuracy de 98.5% avec supervision humaine; réduction de 69% des émissions CO2 vs traitement manuel.

Multi-agentsAgents IAGénération de code
SIG
78
HYP
25
arXiv cs.AI·

CAM-Bench: A Benchmark for Computational and Applied Mathematics in Lean

CAM-Bench est un benchmark Lean 4 de 1 000 problèmes de mathématiques computationnelles et appliquées (optimisation, algèbre linéaire numérique, analyse numérique). Les problèmes sont extraits de manuels avec contexte local reconstruit via pipeline de récupération de dépendances. Évaluation de LLMs et agents de formalisation révèle des défaillances sur les hypothèses locales et le contrôle long-horizon.

BenchmarksRaisonnementGénération de code
SIG
78
HYP
15
arXiv cs.AI·

CyberCorrect: A Cybernetic Framework for Closed-Loop Self-Correction in Large Language Models

CyberCorrect formalise l'auto-correction des LLM comme système de contrôle en boucle fermée. Un détecteur d'erreurs tri-modal (auto-cohérence, confiance verbalisée, vérification logique) et un contrôleur de correction type-dirigé améliorent la précision à 79,8% sur CyberCorrect-Bench (440 tâches), +6,2pp vs méthodes existantes, réduisant les sur-corrections de 41%.

RaisonnementÉvaluationsPapers
SIG
78
HYP
25