Page 33 sur 142

ToutHaut signalRécent
5648 articles
arXiv cs.AI·

When Marginals Match but Structure Fails: Covariance Fidelity in Generative Models

Article théorique sur l'évaluation des modèles génératifs. Les auteurs montrent que les critères standards (marginal matching) ne garantissent pas la préservation de la structure de covariance. Ils introduisent D_Sigma = ||Sigma_P - Sigma_Q||_F pour mesurer la fidélité des dépendances, avec preuves formelles et validation sur Fashion-MNIST VAE, RNA-seq (TCGA-BRCA, n=1111) et données Alzheimer (n=113).

ÉvaluationsPapersBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Multi-agent AI systems outperform human teams in creativity

Des équipes multi-agents basées sur LLM surpassent les équipes humaines en créativité (Cohen's d=1.50) sur 4 541 idées d'IA contre 341 idées humaines sur six tâches. L'avantage provient de la nouveauté tout en maintenant l'utilité. Les équipes LLM bénéficient d'une exploration efficace (large dispersion sémantique, chemins courts), tandis que les humains privilégient la cohérence conversationnelle locale.

Multi-agentsRaisonnementBenchmarks
SIG
75
HYP
45
arXiv cs.AI·

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

HINT-SD propose une auto-distillation ciblée pour entraîner des agents LLM sur des horizons longs. La méthode utilise l'historique complet de trajectoire pour identifier les actions pertinentes aux échecs et applique la distillation conditionnée par feedback uniquement sur ces segments. Sur BFCL v3 et AppWorld, elle améliore les baselines de 18,80% tout en réduisant le temps par étape d'entraînement de 2,26×.

Agents IAReinforcement learningRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

SkillJect: Effectively Automating Skill-Based Prompt Injection for Skill-Enabled Agents

SkillJect automatise les attaques par injection de prompts contre les agents LLM utilisant des skills modulaires. Le framework cache des payloads malveillants dans des scripts auxiliaires et réécrit les instructions SKILL.md via une stratégie de préambule. Une boucle multi-agent (Attack/Victim/Evaluate) optimise l'efficacité de l'attaque sur plusieurs plateformes et modèles.

Agents IASécurité IAPrompt engineering
SIG
75
HYP
25
arXiv cs.AI·

Training Infinitely Deep and Wide Transformers

Article théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.

RaisonnementPapersBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Beyond Accuracy: Robustness, Interpretability and Expressiveness of EEG Foundation Models

Étude comparative de 6 modèles fondamentaux EEG sur 8 datasets, au-delà de la précision brute. Analyse de robustesse (bruit, dropout de canaux), interprétabilité via Attention-Aware Layer-Wise Relevance Propagation, et expressivité par probing. Résultats : pas de modèle dominant tous les modes de défaillance ; les modèles se concentrent sur les régions cérébrales pertinentes mais décodent mal le contenu corrompu.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
15
arXiv cs.CL·

Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study

CLUES, un framework pour Text-to-SQL clinique, décompose l'incertitude sémantique en scores d'ambiguïté et d'instabilité via le complément de Schur d'une matrice de graphe bipartite. Testé sur AmbigQA/SituatedQA et un benchmark clinique, il surpasse Kernel Language Entropy et permet un triage efficace : 51% des erreurs dans 25% des requêtes.

PapersBenchmarksÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

OCCAM: Open-set Causal Concept explAnation and Ontology induction for black-box vision Models

OCCAM est un framework pour expliquer les décisions des classifieurs d'images en boîte noire via des concepts visuels causaux. Il découvre des concepts en mode open-set, les localise par segmentation guidée par texte, et mesure leur contribution causale par interventions au niveau objet. OCCAM agrège les preuves interventionnelles pour induire une ontologie structurée révélant dépendances et biais systémiques.

VisionÉvaluationsRaisonnement
SIG
75
HYP
15
arXiv cs.CL·

The Unlearnability Phenomenon in RLVR for Language Models

Étude révélant un phénomène d'« inapprenabilité » dans l'apprentissage par renforcement avec récompense vérifiable (RLVR) pour LLM. Certains exemples difficiles restent non-apprenables même avec des trajectoires correctes. L'analyse montre des défauts de représentation fondamentaux : faible similarité de gradient et patterns de raisonnement non-généralisables. L'augmentation de données ne résout pas le problème.

Reinforcement learningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

QSTRBench est un benchmark évaluant la capacité des LLM à raisonner sur le calcul spatial et temporel qualitatif (QSTR). Il couvre 9 calculi (Point Algebra, Allen's Interval Algebra, RCC-5/8/22, etc.) avec composition tables, relations inverses et voisinages conceptuels. Les modèles testés surpassent le hasard mais aucun ne répond correctement à tous les cas. RCC-22 s'avère le plus difficile.

BenchmarksRaisonnementÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework

ProRL est un framework de reinforcement learning programmatique pour l'optimisation combinatoire (job shop scheduling). Il génère des politiques interprétables sous forme de programmes lisibles via un DSL spécialisé (DSL-S), explorant l'espace des programmes par recherche locale et optimisation bayésienne. Surpasse les heuristiques classiques et baselines DRL avec peu d'épisodes d'entraînement.

Reinforcement learningRaisonnementBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Prior Knowledge Makes It Possible: From Sublinear Graph Algorithms to LLM Test-Time Methods

Article théorique formulant le raisonnement multi-étapes comme problème de connectivité sur graphe de connaissances. Montre une transition de phase : si les connaissances pré-entraînées sont fragmentées, l'augmentation requiert Ω(√n) requêtes ; au-delà d'un seuil de densité formant une composante géante, un nombre constant de requêtes suffit.

RAGRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle

EvolveR est un framework permettant aux agents LLM d'apprendre de leurs propres expériences via une boucle fermée. Il combine l'auto-distillation hors ligne (synthèse de trajectoires en principes stratégiques réutilisables) et l'interaction en ligne (récupération active de principes pour guider les décisions). Testé sur des benchmarks QA multi-hop complexes, il surpasse les baselines existantes.

Agents IAReinforcement learningRaisonnement
SIG
75
HYP
25
arXiv cs.AI·

Generative AI and the Productivity Divide: Human-AI Complementarities in Education

Une expérience contrôlée randomisée montre que l'accès aux LLM augmente significativement la performance moyenne, mais les gains sont inégalement distribués. La compétence d'interaction IA (capacité à solliciter, filtrer et vérifier les outputs) prédit les bénéfices, pas le GPA. Une intervention de scaffolding (cartes conceptuelles) réduit la variance des résultats.

Reinforcement learningÉvaluationsAlignement
SIG
75
HYP
15
arXiv cs.AI·

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

FUNCanon décompose les tâches de manipulation longue en séquences d'actions (acteur-verbe-objet) et canonicalise les objets par leurs affordances fonctionnelles via VLM. FuncDiffuser, une politique diffusion objet-centrique et action-centrique, apprend sur ces données alignées pour généraliser entre catégories d'objets et réutiliser les comportements cross-task.

RobotiqueVisionAgents IA
SIG
75
HYP
25
arXiv cs.AI·

FediLoRA: Practical Federated Fine-Tuning of Foundation Models Under Missing-Modality Constraints

FediLoRA propose un framework de fine-tuning fédéré avec LoRA pour les modèles de vision-langage (VLLMs). Il résout deux défis : les rangs LoRA imbalancés dus aux ressources hétérogènes et les modalités manquantes (erreurs utilisateur, pannes matérielles). L'approche combine moyennes simples et édition structurée, validée sur benchmarks généraux et médicaux.

Fine-tuningVisionPapers
SIG
75
HYP
15
arXiv cs.AI·

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Étude théorique de la perte de plasticité (LoP) en apprentissage profond dans des environnements non-stationnaires. Les auteurs identifient deux mécanismes principaux : saturation d'activation et redondance représentationnelle, qui créent des pièges dans l'espace des paramètres. Paradoxe : les propriétés favorisant la généralisation statique (représentations bas-rang) aggravent la LoP en apprentissage continu.

Reinforcement learningPapersAlignement
SIG
75
HYP
15
arXiv cs.AI·

OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval

OPERA est une architecture de récupération augmentée par génération (RAG) qui couple planification et exécution via apprentissage par renforcement. Un module de planification d'objectifs décompose les questions complexes en sous-objectifs, exécutés par un module Reason-Execute avec composants spécialisés. L'entraînement utilise MAPGRPO, une variante de GRPO. Résultats supérieurs sur benchmarks multi-hop complexes.

RAGReinforcement learningRaisonnement
SIG
75
HYP
25
arXiv cs.AI·

DuIVRS-2: An LLM-based Interactive Voice Response System for Large-scale POI Attribute Acquisition

DuIVRS-2 est un système de réponse vocale interactif basé LLM déployé chez Baidu Maps pour l'acquisition d'attributs POI à grande échelle. Utilisant augmentation de données guidée par FSM, génération sélective et mécanisme Chain-of-Thought, le système traite 0,4 million d'appels/jour avec 83,9% de taux de succès et 130ms de latence.

Agents IARaisonnementVoix
SIG
75
HYP
15
arXiv cs.AI·

HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction

HTSC-2025 est un benchmark open-source de matériaux supraconducteurs à haute température découverts entre 2023-2025 (systèmes X₂YH₆, pérovskites MXH₃, M₃XH₈, structures en cage BCN-dopées, honeycomb 2D). Comble le manque de datasets standardisés pour évaluer équitablement les algorithmes IA de prédiction de température critique.

BenchmarksPapersOpen source
SIG
75
HYP
25
arXiv cs.AI·

Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective

Étude arXiv sur l'efficacité du fine-tuning supervisé (SFT) pour les LLM. Les auteurs montrent que le SFT supprime principalement les interactions bruitées entre tokens, mais acquiert rarement de nouvelles interactions fiables. La phase de débruitage est très brève ; le fine-tuning prolongé introduit des interactions surapprenantes. Implications pour l'early stopping et l'entraînement des LLM.

Fine-tuningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

SAPO améliore la recommandation générative en alignant l'optimisation par renforcement sur les étapes de raisonnement individuelles. Au lieu d'attribuer un seul avantage à la réponse complète, SAPO calcule un avantage relatif pour chaque étape de raisonnement et token SID, stabilisant l'entraînement et surpassant les baselines sur trois datasets réels.

Reinforcement learningRaisonnementGénération de code
SIG
75
HYP
15
arXiv cs.CL·

Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models

Guided Topology Diffusion (GTD) utilise des modèles de diffusion de graphes pour générer dynamiquement les topologies de communication optimales dans les systèmes multi-agents LLM. Le framework itératif, guidé par un modèle proxy prédisant récompenses multi-objectifs (précision, utilité, coût), adapte les topologies aux tâches sans optimisation par gradient, surpassant les approches statiques.

Multi-agentsAgents IABenchmarks
SIG
75
HYP
25