Page 32 sur 141

ToutHaut signalRécent
5606 articles
arXiv cs.AI·

ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

ManiSoft est un benchmark pour la manipulation vision-langage avec bras robotiques souples. Il inclut un simulateur couplant dynamiques soft-body réalistes et interactions contact-riches, 4 tâches de contrôle déformable, et 6 300 scènes avec trajectoires expertes. Les tests de 3 modèles révèlent des performances prometteuses en scènes nettes mais dégradation substantielle sous randomisation.

VisionRobotiqueBenchmarks
SIG
75
HYP
20
arXiv cs.CL·

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

TABOM, une méthode de post-entraînement pour modèles de diffusion linguistiques, aligne l'optimisation sur la trajectoire de décodage multi-étapes facile-vers-difficile observée en inférence. Via une modélisation Boltzmann des préférences de démasquage, elle dérive un objectif de ranking par paires qui réduit le décalage entraînement-inférence et améliore les performances en nouveaux domaines.

Fine-tuningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.CL·

The Unlearnability Phenomenon in RLVR for Language Models

Étude révélant un phénomène d'« inapprenabilité » dans l'apprentissage par renforcement avec récompense vérifiable (RLVR) pour LLM. Certains exemples difficiles restent non-apprenables même avec des trajectoires correctes. L'analyse montre des défauts de représentation fondamentaux : faible similarité de gradient et patterns de raisonnement non-généralisables. L'augmentation de données ne résout pas le problème.

Reinforcement learningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

Detecting Verbatim LLM Copy-Paste in Homework

SteganoPrompt, un outil web open-source, détecte les copies verbatim d'énoncés d'exercices soumis à des LLM. Il encode une instruction invisible dans le prompt via le bloc Unicode Tags (U+E0000–U+E007F), créant une signature détectable dans la réponse du modèle. Testé sur 7 familles de LLM, l'approche contourne les limites des détecteurs post-hoc et ne nécessite pas la coopération du fournisseur.

ÉvaluationsSécurité IAPrompt engineering
SIG
75
HYP
15
arXiv cs.AI·

Training Infinitely Deep and Wide Transformers

Article théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.

RaisonnementPapersBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Probing Persona-Dependent Preferences in Language Models

Étude des préférences internes dans les LLM via sondes linéaires sur les activations résiduelles. Les chercheurs identifient un vecteur de préférence partagé sur Gemma-3-27B et Qwen-3.5-122B, qui prédit et contrôle causalement les choix du modèle. Ce vecteur reste stable même quand le modèle adopte des personas radicalement différentes (assistant bienveillant vs persona malveillante).

GeminiQwenRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Une nouvelle méthode de credit assignment pour l'apprentissage par renforcement avec LLMs. IBPO (Implicit Behavior Policy Optimization) utilise des trajectoires contrefactuelles pour transformer les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks de raisonnement mathématique et code.

Reinforcement learningRaisonnementGénération de code
SIG
75
HYP
25
arXiv cs.AI·

Beyond Accuracy: Robustness, Interpretability and Expressiveness of EEG Foundation Models

Étude comparative de 6 modèles fondamentaux EEG sur 8 datasets, au-delà de la précision brute. Analyse de robustesse (bruit, dropout de canaux), interprétabilité via Attention-Aware Layer-Wise Relevance Propagation, et expressivité par probing. Résultats : pas de modèle dominant tous les modes de défaillance ; les modèles se concentrent sur les régions cérébrales pertinentes mais décodent mal le contenu corrompu.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
15
arXiv cs.AI·

When Marginals Match but Structure Fails: Covariance Fidelity in Generative Models

Article théorique sur l'évaluation des modèles génératifs. Les auteurs montrent que les critères standards (marginal matching) ne garantissent pas la préservation de la structure de covariance. Ils introduisent D_Sigma = ||Sigma_P - Sigma_Q||_F pour mesurer la fidélité des dépendances, avec preuves formelles et validation sur Fashion-MNIST VAE, RNA-seq (TCGA-BRCA, n=1111) et données Alzheimer (n=113).

ÉvaluationsPapersBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

SkillJect: Effectively Automating Skill-Based Prompt Injection for Skill-Enabled Agents

SkillJect automatise les attaques par injection de prompts contre les agents LLM utilisant des skills modulaires. Le framework cache des payloads malveillants dans des scripts auxiliaires et réécrit les instructions SKILL.md via une stratégie de préambule. Une boucle multi-agent (Attack/Victim/Evaluate) optimise l'efficacité de l'attaque sur plusieurs plateformes et modèles.

Agents IASécurité IAPrompt engineering
SIG
75
HYP
25
arXiv cs.CL·

Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models

Guided Topology Diffusion (GTD) utilise des modèles de diffusion de graphes pour générer dynamiquement les topologies de communication optimales dans les systèmes multi-agents LLM. Le framework itératif, guidé par un modèle proxy prédisant récompenses multi-objectifs (précision, utilité, coût), adapte les topologies aux tâches sans optimisation par gradient, surpassant les approches statiques.

Multi-agentsAgents IABenchmarks
SIG
75
HYP
25
arXiv cs.AI·

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

ECHO est un modèle de diffusion pour la génération de rapports de radiographie thoracique. Il utilise une distillation conditionnelle directe et un entraînement asymétrique pour générer des rapports en une seule étape par bloc, réduisant la latence d'inférence de 8× tout en améliorant RaTE (+64,33%) et SemScore (+60,58%) par rapport aux méthodes autorégressives.

VisionGénération de codeBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Herding CATs: ALARA for Agent Harness Engineering in Portable Composable Multi-Agent Teams

Papier présentant CAT (Context-Agent-Tool), une couche de données pour gérer les équipes multi-agents. Applique le principe ALARA (exposition minimale raisonnable) au contexte. Évalue 22 modèles (0.6B–35B paramètres) sur 115 tâches pratiques via npcsh, un shell CLI. ~2500 exécutions testent opérations fichiers, recherche web, scripting multi-étapes, chaînage d'outils et délégation inter-agents.

Multi-agentsAgents IAOutils
SIG
75
HYP
15
arXiv cs.CL·

Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study

CLUES, un framework pour Text-to-SQL clinique, décompose l'incertitude sémantique en scores d'ambiguïté et d'instabilité via le complément de Schur d'une matrice de graphe bipartite. Testé sur AmbigQA/SituatedQA et un benchmark clinique, il surpasse Kernel Language Entropy et permet un triage efficace : 51% des erreurs dans 25% des requêtes.

PapersBenchmarksÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

OCCAM: Open-set Causal Concept explAnation and Ontology induction for black-box vision Models

OCCAM est un framework pour expliquer les décisions des classifieurs d'images en boîte noire via des concepts visuels causaux. Il découvre des concepts en mode open-set, les localise par segmentation guidée par texte, et mesure leur contribution causale par interventions au niveau objet. OCCAM agrège les preuves interventionnelles pour induire une ontologie structurée révélant dépendances et biais systémiques.

VisionÉvaluationsRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

QSTRBench est un benchmark évaluant la capacité des LLM à raisonner sur le calcul spatial et temporel qualitatif (QSTR). Il couvre 9 calculi (Point Algebra, Allen's Interval Algebra, RCC-5/8/22, etc.) avec composition tables, relations inverses et voisinages conceptuels. Les modèles testés surpassent le hasard mais aucun ne répond correctement à tous les cas. RCC-22 s'avère le plus difficile.

BenchmarksRaisonnementÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework

ProRL est un framework de reinforcement learning programmatique pour l'optimisation combinatoire (job shop scheduling). Il génère des politiques interprétables sous forme de programmes lisibles via un DSL spécialisé (DSL-S), explorant l'espace des programmes par recherche locale et optimisation bayésienne. Surpasse les heuristiques classiques et baselines DRL avec peu d'épisodes d'entraînement.

Reinforcement learningRaisonnementBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Prior Knowledge Makes It Possible: From Sublinear Graph Algorithms to LLM Test-Time Methods

Article théorique formulant le raisonnement multi-étapes comme problème de connectivité sur graphe de connaissances. Montre une transition de phase : si les connaissances pré-entraînées sont fragmentées, l'augmentation requiert Ω(√n) requêtes ; au-delà d'un seuil de densité formant une composante géante, un nombre constant de requêtes suffit.

RAGRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle

EvolveR est un framework permettant aux agents LLM d'apprendre de leurs propres expériences via une boucle fermée. Il combine l'auto-distillation hors ligne (synthèse de trajectoires en principes stratégiques réutilisables) et l'interaction en ligne (récupération active de principes pour guider les décisions). Testé sur des benchmarks QA multi-hop complexes, il surpasse les baselines existantes.

Agents IAReinforcement learningRaisonnement
SIG
75
HYP
25
arXiv cs.AI·

Identifying Latent Actions and Dynamics from Offline Data via Demonstrator Diversity

Article théorique sur la récupération d'actions latentes et de dynamiques d'environnement à partir de trajectoires hors ligne sans observations d'actions. Les auteurs exploitent la diversité des démonstrateurs (chacun suivant une politique distincte) pour identifier les noyaux de transition latents via factorisation matricielle non-négative. Identifiabilité prouvée sous conditions de rang et diversité de politique.

Reinforcement learningPapers
SIG
75
HYP
15
arXiv cs.LG·

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Étude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant masque sélectivement les actions légales de la victime. Expériences sur poker (6 à 5 531 états) et deux domaines non-poker : le masquage appris cause plus de dégâts que le masquage aléatoire, persiste sur Q-learning/PPO/NFSP/DQN, transfère entre agents et s'amplifie en auto-jeu.

Reinforcement learningSécurité IABenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Generative AI and the Productivity Divide: Human-AI Complementarities in Education

Une expérience contrôlée randomisée montre que l'accès aux LLM augmente significativement la performance moyenne, mais les gains sont inégalement distribués. La compétence d'interaction IA (capacité à solliciter, filtrer et vérifier les outputs) prédit les bénéfices, pas le GPA. Une intervention de scaffolding (cartes conceptuelles) réduit la variance des résultats.

Reinforcement learningÉvaluationsAlignement
SIG
75
HYP
15
arXiv cs.AI·

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

FUNCanon décompose les tâches de manipulation longue en séquences d'actions (acteur-verbe-objet) et canonicalise les objets par leurs affordances fonctionnelles via VLM. FuncDiffuser, une politique diffusion objet-centrique et action-centrique, apprend sur ces données alignées pour généraliser entre catégories d'objets et réutiliser les comportements cross-task.

RobotiqueVisionAgents IA
SIG
75
HYP
25
arXiv cs.AI·

FediLoRA: Practical Federated Fine-Tuning of Foundation Models Under Missing-Modality Constraints

FediLoRA propose un framework de fine-tuning fédéré avec LoRA pour les modèles de vision-langage (VLLMs). Il résout deux défis : les rangs LoRA imbalancés dus aux ressources hétérogènes et les modalités manquantes (erreurs utilisateur, pannes matérielles). L'approche combine moyennes simples et édition structurée, validée sur benchmarks généraux et médicaux.

Fine-tuningVisionPapers
SIG
75
HYP
15
arXiv cs.AI·

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Étude théorique de la perte de plasticité (LoP) en apprentissage profond dans des environnements non-stationnaires. Les auteurs identifient deux mécanismes principaux : saturation d'activation et redondance représentationnelle, qui créent des pièges dans l'espace des paramètres. Paradoxe : les propriétés favorisant la généralisation statique (représentations bas-rang) aggravent la LoP en apprentissage continu.

Reinforcement learningPapersAlignement
SIG
75
HYP
15