Page 31 sur 140

ToutHaut signalRécent
5570 articles
arXiv cs.AI·

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

CounterRefine est une couche de réparation légère pour RAG qui traite la première réponse comme une hypothèse à tester. Le système émet des requêtes d'expansion conditionnées par la réponse pour récupérer des preuves spécifiques, puis applique une étape de raffinement KEEP/REVISE validée déterministiquement. Sur SimpleQA, il améliore un baseline RAG de 5,8 points de taux correct.

RAGRaisonnementÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

Herding CATs: ALARA for Agent Harness Engineering in Portable Composable Multi-Agent Teams

Papier présentant CAT (Context-Agent-Tool), une couche de données pour gérer les équipes multi-agents. Applique le principe ALARA (exposition minimale raisonnable) au contexte. Évalue 22 modèles (0.6B–35B paramètres) sur 115 tâches pratiques via npcsh, un shell CLI. ~2500 exécutions testent opérations fichiers, recherche web, scripting multi-étapes, chaînage d'outils et délégation inter-agents.

Multi-agentsAgents IAOutils
SIG
75
HYP
15
arXiv cs.CL·

Code as Agent Harness

Nouvelle perspective sur les systèmes d'agents IA : le code comme infrastructure centrale. Cet article de recherche organise un cadre unifié autour de trois couches — interface de harness (code connectant raisonnement et action), mécanismes (planification, mémoire, feedback), et passage à l'échelle multi-agents. Applications : assistants de code, automatisation GUI/OS, agents incarnés, découverte scientifique.

Agents IAMulti-agentsGénération de code
SIG
75
HYP
25
arXiv cs.CL·

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Les chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de credit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.

Reinforcement learningRaisonnementGénération de code
SIG
75
HYP
25
arXiv cs.AI·

Spherical VAE with Cluster-Aware Feasible Regions: Guaranteed Prevention of Posterior Collapse

Nouvelle méthode VAE utilisant la géométrie sphérique et des contraintes cluster-aware pour éliminer mathématiquement l'effondrement postérieur. Transforme les données en coque sphérique, applique K-means, définit une région faisable entre variance intra-cluster et perte d'effondrement. Garantit 100% de prévention d'effondrement sans surcharge computationnelle ni restrictions sur le décodeur.

PapersÉvaluations
SIG
75
HYP
25
arXiv cs.AI·

SLASH the Sink: Sharpening Structural Attention Inside LLMs

Les LLMs reconstruisent spontanément la topologie des graphes via des patterns d'attention « sawtooth », mais cette compréhension structurelle est diluée par l'attention sink. SLASH, une solution sans entraînement, réamplifie cette compréhension via une redistribution d'attention plug-and-play, montrant des gains significatifs sur tâches graphiques et prédiction moléculaire.

RaisonnementPapersBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Babel est une méthode de jailbreak black-box qui exploite une vulnérabilité dans l'alignement de sécurité des LLM : la sécurité repose sur peu de têtes d'attention éparses, laissant l'espace représentationnel faiblement surveillé. Via obfuscation optimisée et raffinement itératif, Babel atteint 82,67% de succès sur GPT-4o et 78,33% sur Claude-3-5-haiku en ~40 requêtes.

Sécurité IAAlignementGPT
SIG
75
HYP
35
arXiv cs.AI·

When Marginals Match but Structure Fails: Covariance Fidelity in Generative Models

Article théorique sur l'évaluation des modèles génératifs. Les auteurs montrent que les critères standards (marginal matching) ne garantissent pas la préservation de la structure de covariance. Ils introduisent D_Sigma = ||Sigma_P - Sigma_Q||_F pour mesurer la fidélité des dépendances, avec preuves formelles et validation sur Fashion-MNIST VAE, RNA-seq (TCGA-BRCA, n=1111) et données Alzheimer (n=113).

ÉvaluationsPapersBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée couvrant 10 catégories de tâches sur OmniGibson. Les agents doivent combiner perception, locomotion et manipulation pour accumuler activement des preuves. Les expériences montrent que l'exploration active surpasse les approches passives, mais les défaillances proviennent surtout de mauvais choix d'action plutôt que de perception faible.

VisionRobotiqueBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

UniER: A Unified Benchmark for Item-level and Path-level Exercise Recommendation

UniER est un benchmark unifié pour la recommandation d'exercices pédagogiques, comparant deux paradigmes : ILER (recommandation au niveau item) et PLER (recommandation de parcours d'apprentissage). Le framework introduit la métrique Weighted Cognitive Gain (WCG) et évalue 18 méthodes sur 9 datasets. Les résultats montrent la supériorité systématique de PLER et les limites d'ILER en contexte de rareté de données.

BenchmarksÉvaluationsPapers
SIG
75
HYP
15
arXiv cs.AI·

Multi-agent AI systems outperform human teams in creativity

Des équipes multi-agents basées sur LLM surpassent les équipes humaines en créativité (Cohen's d=1.50) sur 4 541 idées d'IA contre 341 idées humaines sur six tâches. L'avantage provient de la nouveauté tout en maintenant l'utilité. Les équipes LLM bénéficient d'une exploration efficace (large dispersion sémantique, chemins courts), tandis que les humains privilégient la cohérence conversationnelle locale.

Multi-agentsRaisonnementBenchmarks
SIG
75
HYP
45
arXiv cs.AI·

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

HINT-SD propose une auto-distillation ciblée pour entraîner des agents LLM sur des horizons longs. La méthode utilise l'historique complet de trajectoire pour identifier les actions pertinentes aux échecs et applique la distillation conditionnée par feedback uniquement sur ces segments. Sur BFCL v3 et AppWorld, elle améliore les baselines de 18,80% tout en réduisant le temps par étape d'entraînement de 2,26×.

Agents IAReinforcement learningRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

LiRA, un framework de fine-tuning léger, améliore l'adaptation multilingue des LLM pour les langues peu dotées. Il combine Arca (alignement basé sur des ancres vers l'anglais) et LaSR (tête sémantique consciente de la langue) pour stabiliser les représentations et la cohérence cross-linguale. Résultats positifs sur retrieval, ranking, QA et reasoning. Dataset multilingue (7 langues asiatiques) et code en open-source.

Fine-tuningRAGEmbeddings
SIG
75
HYP
20
arXiv cs.AI·

Training Infinitely Deep and Wide Transformers

Article théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.

RaisonnementPapersBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Beyond Accuracy: Robustness, Interpretability and Expressiveness of EEG Foundation Models

Étude comparative de 6 modèles fondamentaux EEG sur 8 datasets, au-delà de la précision brute. Analyse de robustesse (bruit, dropout de canaux), interprétabilité via Attention-Aware Layer-Wise Relevance Propagation, et expressivité par probing. Résultats : pas de modèle dominant tous les modes de défaillance ; les modèles se concentrent sur les régions cérébrales pertinentes mais décodent mal le contenu corrompu.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
15
arXiv cs.AI·

A Theory of Training Profit-Optimal LLMs

Modèle économique combinant lois de scaling et théorie microéconomique pour caractériser le comportement rationnel des entreprises d'entraînement LLM. Analyse la maximisation du profit en régimes compute-bound et data-bound : en compute-bound, la taille optimale suit l'efficacité matérielle (FLOPs/$) à taux quasi-linéaire ; en data-bound, les dépenses d'entraînement optimales évoluent en D²/E.

BenchmarksPapersBusiness
SIG
75
HYP
15
arXiv cs.AI·

When Efficiency Backfires: Cascading LLMs Trigger Cascade Failure under Adversarial Attack

Les systèmes en cascade d'LLM, conçus pour optimiser efficacité et performance en routant les requêtes complexes vers des modèles puissants, sont vulnérables aux attaques adversariales ciblées. Une nouvelle attaque exploite les modèles légers et les mécanismes de décision interne pour dégrader simultanément la précision et l'efficacité des coûts.

Sécurité IAAgents IABenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Probing Persona-Dependent Preferences in Language Models

Étude des préférences internes dans les LLM via sondes linéaires sur les activations résiduelles. Les chercheurs identifient un vecteur de préférence partagé sur Gemma-3-27B et Qwen-3.5-122B, qui prédit et contrôle causalement les choix du modèle. Ce vecteur reste stable même quand le modèle adopte des personas radicalement différentes (assistant bienveillant vs persona malveillante).

GeminiQwenRaisonnement
SIG
75
HYP
15
arXiv cs.CL·

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

D²Evo est un framework RL pour améliorer le raisonnement des LLM. Il résout la rareté des samples de difficulté moyenne en minant des anchors adaptés à la capacité du modèle et en entraînant un Questioner à générer des questions diversifiées. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K samples réels.

Reinforcement learningRaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

StreamPro: From Reactive Perception to Proactive Decision-Making in Streaming Video

StreamPro introduit StreamPro-Bench, un benchmark évaluant la compréhension proactive de vidéos en streaming selon trois axes : perception, raisonnement temporel et agentivité. Le framework propose une perte CB-Stream pour équilibrer l'imbalance de supervision et applique GRPO avec récompenses multi-niveaux. Résultats : 41.5 sur StreamPro-Bench vs 10.4 précédemment, 78.9 sur StreamingBench-RTVU.

VisionRaisonnementReinforcement learning
SIG
75
HYP
25
arXiv cs.AI·

ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

ManiSoft est un benchmark pour la manipulation vision-langage avec bras robotiques souples. Il inclut un simulateur couplant dynamiques soft-body réalistes et interactions contact-riches, 4 tâches de contrôle déformable, et 6 300 scènes avec trajectoires expertes. Les tests de 3 modèles révèlent des performances prometteuses en scènes nettes mais dégradation substantielle sous randomisation.

VisionRobotiqueBenchmarks
SIG
75
HYP
20
arXiv cs.CL·

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

TABOM, une méthode de post-entraînement pour modèles de diffusion linguistiques, aligne l'optimisation sur la trajectoire de décodage multi-étapes facile-vers-difficile observée en inférence. Via une modélisation Boltzmann des préférences de démasquage, elle dérive un objectif de ranking par paires qui réduit le décalage entraînement-inférence et améliore les performances en nouveaux domaines.

Fine-tuningRaisonnementPapers
SIG
75
HYP
15