Archives

juin 2026

516 articles

arXiv cs.AI·

LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories

LinTree améliore le raisonnement des LLM en représentant explicitement la structure arborescente des traces de recherche. Les chercheurs montrent que l'accès brut à l'historique de recherche ne suffit pas à surpasser la recherche heuristique guidée par LLM. Ajouter des pointeurs parents pour expliciter la structure arborescente améliore les performances sur Blocks World, Navigation et Sokoban.

RaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

Answer-Set-Programming-based Abstractions for Reinforcement Learning

Nouvelle approche combinant Answer-Set Programming (ASP) et Reinforcement Learning pour créer des abstractions logiques d'espaces d'états. Les auteurs réimplémentent le framework CARCASS (originellement en Prolog) avec ASP, un langage déclaratif, et l'évaluent sur Blocks World et Minigrid. ASP offre une modélisation plus riche pour les représentations logiques de processus de décision markoviens.

Reinforcement learningRaisonnementPapers
SIG
65
HYP
15
arXiv cs.AI·

HypoAgent: An Agentic Framework for Interactive Abductive Hypothesis Generation over Knowledge Graphs

HypoAgent est un framework multi-agent pour générer des hypothèses abductives interactives sur des graphes de connaissances. Trois agents coordonnés (reconnaissance d'intention, génération d'hypothèses, analyse de cause racine) permettent le dialogue multi-tour et le diagnostic fin des hypothèses échouées. SOTA sur graphes commonsense et biomédicaux.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration

SCALE est un framework d'auto-amélioration pour agents web basé sur MLLMs. Il utilise trois rôles adversariaux (Selector, Predictor, Judger) pour explorer autonomement les limites de l'agent et élargir ses capacités cognitives. SCALE-Hop optimise la planification globale. Un dataset SCALE-20k de 19 sites réels avec 20k démonstrations structurées valide l'approche sur plusieurs MLLMs.

Agents IAVisionReinforcement learning
SIG
72
HYP
35
arXiv cs.AI·

Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation

GLIDE est une bibliothèque Python open-source unifiant les méthodes de prediction-powered inference (PPI++, Stratified PPI, Predict-Then-Debias) pour évaluer les systèmes agentic. Elle combine annotations humaines et jugements LLM en estimations sans biais avec intervalles de confiance valides, réduisant les coûts d'annotation tout en maintenant la précision.

Agents IAÉvaluationsOpen source
SIG
82
HYP
18
arXiv cs.AI·

Learning Agent-Compatible Context Management for Long-Horizon Tasks

AdaCoM, un système d'IA externe, gère le contexte d'agents LLM figés via apprentissage par renforcement pour les tâches longues (recherche web, recherche approfondie). Les stratégies apprises révèlent un compromis Fidélité-Fiabilité : les agents performants bénéficient d'une préservation contextuelle fidèle, tandis que les agents faibles nécessitent une compression agressive.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response

Des chercheurs reformulent la conception de mécanismes de santé comme synthèse de programmes pour LLM. Medi-Sim, un simulateur multi-agent, évalue les règles face aux réponses stratégiques des prestataires (codage, sélection, délai, effort, triage). Une recherche évolutionnaire guidée par LLM synthétise un programme mixte qui élimine le sur-codage, réduit les rejets de 50% et préserve la rentabilité.

Agents IAMulti-agentsGénération de code
SIG
72
HYP
25
arXiv cs.AI·

Structure-Induced Information for Rerooting Levin Tree Search

Algorithme √LTS pour la recherche en arbre avec rerootage implicite. Trois designs de rerooter proposés : clustering basé sur la structure d'état, heuristique avec estimations coût-à-aller, et hybride. Évite la génération explicite de sous-objectifs, réduit l'overhead computationnel et atteint l'efficacité d'entraînement en ligne optimale sur les domaines testés.

RaisonnementAgents IABenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Framework d'apprentissage par renforcement pour la conduite autonome qui utilise des conseils d'experts régulés par l'incertitude. Les seuils adaptatifs d'incertitude épistémique/aléatoire déclenchent l'intervention d'experts, tandis qu'une stratégie de commitment-cooldown limite la dépendance. Testé sur CARLA : +5-7% de succès vs baseline IQN.

Reinforcement learningRobotiqueSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

PhyDrawGen est un pipeline neuro-symbolique qui génère des diagrammes de physique à partir de texte en respectant les lois physiques. Un LLM extrait un graphe de scène typé, un solveur déterministe le convertit en graphe planaire, et Qwen-VL affine une boucle propose-vérifier. Évalué sur 1 449 problèmes (mécanique, optique, électromagnétisme), il surpasse GPT-5-image et Gemini.

QwenRaisonnementVision
SIG
78
HYP
25
arXiv cs.AI·

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

COLLEAGUE.SKILL est un système automatisé de distillation de traces en compétences pour générer des skills IA ancrées à une personne via extraction de connaissances expertes. Le système produit des packages versionnés avec deux pistes : capacités (pratiques, modèles mentaux, heuristiques) et comportements bornés (style de communication, règles d'interaction). 18.5k stars GitHub, 215 skills de 165 contributeurs.

Agents IAPrompt engineeringOpen source
SIG
72
HYP
25
arXiv cs.LG·

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn, un framework de préentraînement multi-dataset, résout le compromis entre modèles indépendants par canal (scalables mais ignorant les dépendances) et modèles dépendants (expressifs mais limités en dimensions). Via un codebook de prototypes latents, il projette des canaux hétérogènes dans un espace partagé pour apprendre des patterns de corrélation réutilisables et transférables.

PapersBenchmarksFine-tuning
SIG
72
HYP
28
arXiv cs.LG·

Functional MRI Time Series Generation via Wavelet-Based Image Transform and Spectral Flow Matching for Brain Disorder Identification

DSFM (Dual-Spectral Flow Matching) génère des séries temporelles fMRI synthétiques en combinant transformée en ondelettes discrète (DWT) et transformée en cosinus discret (DCT) avec flow matching spectral. Le modèle capture la non-stationnarité et la dynamique spatiotemporelle des signaux BOLD pour améliorer la classification de réseaux cérébraux.

PapersBenchmarksVision
SIG
72
HYP
18
arXiv cs.LG·

VeriGate: Verifier-Gated Step-Level Supervision for GRPO

VeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.

RaisonnementReinforcement learningPapers
SIG
82
HYP
18
arXiv cs.CL·

Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

Étude arXiv sur la sécurité des LLM face aux entrées non fiables. Les chercheurs testent l'hypothèse que wrapper du contenu non fiable dans des appels d'outils simulés améliore la robustesse. Résultat : sur 7 modèles et 3 tâches de jugement, cette approche échoue et augmente souvent les taux de succès des attaques, inversant la hiérarchie d'instructions attendue.

Sécurité IAPrompt engineeringÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

CanLegalRAGBench est un benchmark d'évaluation pour systèmes RAG appliqués au droit canadien, basé sur des requêtes réalistes et des réponses annotées par des experts. L'étude révèle que les modèles d'embedding open-source rivalisent avec les modèles fermés, mais identifie des hallucinations dans 8-29% des réponses générées, non supportées par les documents récupérés.

RAGEmbeddingsÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Can LLM Teams Play What? Where? When?

Étude sur les équipes d'LLM jouant à ChGK (quiz de raisonnement collectif). Trois stratégies testées : Vote, Silent Team (capitaine observe réponses), Talkative Team (capitaine observe réponses + justifications). Sur 572 questions 2025, les équipes surpassent les modèles seuls (+20 points). Meilleure équipe : 44,23% accuracy, approchant la performance humaine. La communication des justifications réduit les erreurs.

Multi-agentsRaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.LG·

Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents

Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.

BenchmarksÉvaluationsAgents IA
SIG
82
HYP
18
arXiv cs.LG·

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

LongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.

Agents IABenchmarksÉvaluations
SIG
82
HYP
15
arXiv cs.LG·

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

NumLeak mesure la mémorisation de benchmarks publics dans les LLM frontier. Les modèles rappellent les données Fama-French (r=0.97-0.99), chômage US et température NOAA avec haute fidélité. Sur données récentes non vues, le taux de parsing chute à 21-57% mais r reste ~0.99 pour les mois répondus. Une défense prompt-système bloque 99.8% des attaques.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
25
arXiv cs.LG·

AMNESIA: A Large Scale Medical Unlearning Benchmark Suite with Disease-Informed Analysis

AMNESIA est le premier benchmark open-source à grande échelle pour l'oubli sélectif dans les LLMs médicaux. Il contient 70 560 paires question-réponse issues de 8 820 dossiers patients couvrant 11 catégories de maladies. Les auteurs évaluent 4 méthodes d'unlearning et révèlent que l'oubli de patients individuels érode la connaissance d'autres patients atteints de la même condition.

BenchmarksPapersSécurité IA
SIG
78
HYP
22
arXiv cs.LG·

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.

PapersSécurité IAAlignement
SIG
82
HYP
15
arXiv cs.LG·

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Benchmark unifié Gait2Hip-60 comparant LSTM, Transformer et Mamba pour prédire les forces musculaires et moments articulaires de la hanche à partir de la cinématique de marche. Transformer surpasse les autres modèles (R²=0.819 pour les forces, R²=0.862 pour les moments). Validation externe sur 9 patients atteints de nécrose fémorale montre une généralisation modérée (R²=0.537-0.569).

BenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Gradient-Free Training of Spiking Neural Networks via Low-Rank Evolution Strategies

EGGROLL, une factorisation bas-rang des perturbations en Evolution Strategies, réduit la complexité mémoire de O(mn) à O(r(m+n)) pour l'entraînement sans gradient des réseaux de neurones impulsionnels. Sur N-MNIST, la méthode atteint 79,21% de précision avec 2,23× d'accélération par rapport aux ES plein-rang, compatible avec l'apprentissage sur matériel neuromorphe.

PapersBenchmarksReinforcement learning
SIG
72
HYP
15
arXiv cs.AI·

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude arXiv sur l'affinage itératif des fonctions de récompense générées par LLM pour RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement diagnostique guidé par taxonomie. Résultats : DoorKey-8x8 passe de 2,3% à 97,6%, KeyCorridor de 31,2% à 86,7%. Limites : méthode restreinte à PPO et tâches sparse structurées.

Reinforcement learningLlamaPrompt engineering
SIG
72
HYP
18
arXiv cs.AI·

FAM-Bench: A Multimodal Benchmark for Condition-Aware Food-as-Medicine Reasoning

FAM-Bench est un benchmark multimodal de 2500 instances vérifiées par des experts en nutrition, évaluant le raisonnement « Food-as-Medicine » sur 13 conditions de santé. Deux tâches : évaluer l'adéquation d'un plat pour une condition (image + ingrédients) et classer 4 plats par pertinence clinique. Teste l'intégration de contraintes nutritionnelles, indices visuels et preuves d'ingrédients.

BenchmarksVisionRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents

CoSee, un framework d'audit, analyse les défaillances de systèmes de raisonnement visuel modulaires utilisant une mémoire partagée. Sur des modèles 4B–8B, deux modes de défaillance dominent : Noise Reinforcement (réutilisation de notes non fondées) et Policy Collapse (réponses sous-spécifiées). L'étude montre que les espaces de travail partagés naïfs amplifient les hallucinations sans vérification explicite.

VisionAgents IAMulti-agents
SIG
72
HYP
18
arXiv cs.AI·

TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories

TraceGraph est un framework graphique qui transforme les trajectoires d'agents multi-modèles en paysages décisionnels partagés. Il construit des graphes état-action-observation, identifie les régions productives et les pièges, puis propose un pipeline de récupération conscient des pièges. Sur SWE-bench, cette approche améliore le taux de résolution de 40,4% à 43,5%.

Agents IABenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks

XLGoBench est un benchmark de tâches algorithmiques synthétiques pour détecter les lacunes cross-lingues dans les capacités des LLM. Le benchmark est comparable entre langues, scalable (complexité variable), quantifiable (correction objective) et transparent (templates auditables). Les expériences révèlent des lacunes persistantes dans plusieurs modèles état-de-l'art.

BenchmarksÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

MASA (Model-Aware Skill Alignment) adapte les compétences procédurales des agents LLM à chaque modèle backbone sans modifier les poids. Un pipeline d'évolution hiérarchique réécrit les compétences via hill climbing et recherche arborescente UCB, puis un réécriture légère entraîné reproduit l'adaptation en un seul passage. Gains jusqu'à 25,8 points sur trois environnements interactifs et quatre backbones.

Agents IAPrompt engineeringRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Neuron-Level Interventions for Gendered and Gender-Neutral Generation in Language Models

Étude des neurones liés au genre dans les modèles de langage (féminin, masculin, neutre). Les auteurs proposent une méthode d'intervention au niveau neuronal pour identifier et contrôler la génération de formes genrées. Expériences sur deux LMs open-source montrent que les neurones genrés se concentrent dans les premières couches. Code et datasets publiés.

PapersAlignementSécurité IA
SIG
75
HYP
15
arXiv cs.LG·

Supervised Training Rapidly Degrades Early Visual Cortex Alignment Across Biologically Plausible Learning Rules

Des réseaux de neurones non entraînés correspondent mieux au cortex visuel précoce que des réseaux entraînés. Une étude sur 720 images (THINGS) et données fMRI de 3 sujets montre qu'une époque de training réduit l'alignement V1 de 25-90% selon la règle d'apprentissage. La rétropropagation dégrade le plus (Δr = -0.080), tandis que le codage prédictif et STDP préservent mieux l'alignement (Δr ~ -0.04).

PapersRaisonnementAlignement
SIG
75
HYP
15
arXiv cs.AI·

Vector Linking via Cross-Model Local Isometric Consistency

Méthode pour établir des correspondances entre vecteurs d'embeddings produits par différents encodeurs. Exploite la cohérence géométrique locale des encodeurs contrastifs entraînés indépendamment : les distances courtes sont préservées à un facteur d'échelle près. Utilise un hachage géométrique itératif basé sur des ancres appairées pour récupérer les liens vectoriels. Code disponible.

EmbeddingsRecherche vectorielleBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

HADT: A Heterogeneous Multi-Agent Differential Transformer for Autonomous Earth Observation Satellite Cluster

Nouvelle architecture transformer pour la gestion autonome des ressources dans des constellations satellites hétérogènes (optiques et SAR). Utilise le reinforcement learning sans modèle pour la prise de décision en temps réel lors de missions d'observation terrestre. Démontre améliorations significatives et transferabilité sur différentes tailles de constellations.

Multi-agentsReinforcement learningRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI

Cadre d'évaluation basé sur des personas pour l'alignement pluraliste des IA génératives. Remplace les benchmarks monolithiques par une variété de profils cognitifs synthétiques représentant diverses perspectives humaines. Révèle une dégradation systématique de la cohérence des personas sous inférence séquentielle, suggérant le besoin de mécanismes de régulation dynamiques.

AlignementÉvaluationsBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling

UniScale unifie le routage de modèles et le test-time scaling (TTS) dans un espace d'optimisation unique pour équilibrer qualité et coût computationnel des LLM. Le framework utilise LinUCB et la théorie des bandits contextuels pour apprendre des politiques d'inférence adaptatives en ligne, avec modélisation des coûts et apprentissage conscient de l'efficacité.

RaisonnementMulti-agents
SIG
75
HYP
25
arXiv cs.AI·

COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents

COMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.

Agents IASécurité IAAlignement
SIG
72
HYP
25
arXiv cs.LG·

Destruction is a General Strategy to Learn Generation; Diffusion's Strength is to Take it Seriously; Exploration is the Future

Article théorique positionnant les modèles de diffusion comme cas particulier d'une famille de techniques d'apprentissage par destruction d'information. L'auteur argue que l'approche destructive offre plus de flexibilité que les techniques classiques, particulièrement en contexte de données limitées. Soulève des enjeux d'exploration et propose des directions de recherche natives aux modèles de diffusion.

PapersRaisonnement
SIG
45
HYP
25
arXiv cs.LG·

SubsurfaceGen: Procedural Generation of Field-Scale Earth Models and Seismic Data

SubsurfaceGen est un générateur GPU pour modèles de vélocité 3D et données sismiques à l'échelle du terrain. Les auteurs publient un dataset de 4 276 tranches 2D, couvrant 6 contextes géologiques (10 km × 10 km × 6,19 km à 10 m de résolution). Évaluation d'opérateurs neuronaux sur prédiction de champs d'ondes et inversion de vélocité end-to-end.

BenchmarksPapersOpen source
SIG
78
HYP
15
arXiv cs.CL·

Counterfactual Graph for Multi-Agent LLM Calibration

Les systèmes multi-agents LLM supposent que l'accord entre agents indique la fiabilité. Les auteurs montrent que la communication entre agents crée des défaillances corrélées et des faux consensus. Ils proposent CAGE-CAL, un cadre de calibration basé sur des graphes contrefactuels, qui compare les dépendances observées post-communication avec un scénario sans communication pour ajuster la confiance.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
18
arXiv cs.CL·

COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models

COFT est une méthode de décodage sans entraînement qui réduit les biais dans la génération de chaînes de pensée (CoT) des LLM. Elle utilise des prompts contrefactuels masqués et la fusion de logits pour atténuer les biais liés aux attributs sensibles, avec garanties de validité marginale sans distribution. Évaluation sur 6 modèles : réduction de 30-55% des biais (médiane 38%) sans perte d'utilité.

RaisonnementSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.LG·

The Long-Term Effects of Data Selection in LLM Fine-Tuning

Étude sur les effets long terme de la sélection de données lors du fine-tuning d'LLM sur plusieurs étapes. Les auteurs montrent que les stratégies optimales à court terme (loss-based, gradient-based, diversity-based) peuvent ralentir l'apprentissage futur et augmenter l'oubli catastrophique. Ils proposent LHAS (Long-Horizon Aware Selection) pour évaluer la sélection comme intervention d'entraînement globale.

Fine-tuningBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

Speculative Decoding Across Languages

Les chercheurs améliorent le speculative decoding multilingue en comparant trois stratégies : fine-tuning du modèle draft sur données spécifiques, fine-tuning sur corpus monolingues non annotés, et modèles n-gram. Évaluation sur 11 langues en traduction et génération d'histoires. Les modèles n-gram offrent les meilleurs accélérations malgré des taux d'acceptation plus faibles.

Génération de codeBenchmarksInfrastructure
SIG
72
HYP
15
arXiv cs.AI·

LLM-FACETS: A Privacy-Preserving Framework for Evaluating LLM Transparency and Accountability

LLM-FACETS est un framework open-source pour évaluer la factualité, l'étalonnage épistémique et la reproductibilité des LLM. Interface web, architecture plugin, métriques déterministes (BLEU, ROUGE, BERTScore) exécutées localement, visualisation log-probabilités, consensus multi-judge, métriques RAG Triad. Conçu pour experts techniques, domaine et compliance officers selon EU AI Act et NIST.

ÉvaluationsSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.CL·

Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

Étude comparative d'embeddings génériques vs spécialisés pour la recherche clinique multilingue (ICD-10-CM). Un bi-encoder fine-tuné sur données synthétiques Gemini (6 langues) surpasse BioBERT-ST : R@5=0.822 vs 0.790, avec gains majeurs en portugais (+0.115). Recette open-source pour retrievers médicaux basés sur LLM.

EmbeddingsRAGBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Auditing LLM Benchmarks with Item Response Theory

Une méthode basée sur la théorie de la réponse aux items détecte les erreurs d'étiquetage dans 7 benchmarks LLM avec 95% de précision sur les 200 premiers exemples. Analyse de 114 modèles révèle des mislabels dus à des heuristiques mécaniques, des erreurs d'annotation héritées et des items ambigus. Les reward models se spécialisent dans les préférences stylistiques plutôt que la connaissance factuelle.

BenchmarksÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.CL·

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

Des chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).

Sécurité IAAlignementPapers
SIG
82
HYP
25
arXiv cs.CL·

ImmigrationQA: A Source-Grounded Dataset and Small-Model Adaptation for U.S. Immigration Law

ImmigrationQA : dataset de 17 058 paires QA source-grounded sur le droit d'immigration américain (13 sous-domaines). Fine-tuning d'un Llama 3.2 3B avec LoRA sur corpus de 10 056 documents validés. Modèle fine-tuné : 1.08/3.0 (16.8% correct) vs Llama 3 8B base : 0.85/3.0 (4% correct), amélioration relative 27%. Coût : ~29$. Dataset, modèle et code publics.

LlamaFine-tuningRAG
SIG
78
HYP
15
arXiv cs.CL·

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Étude de la dominance narrative globale dans les LLM via CulturalNB, dataset de 717 instances culturelles bengali avec paires questions-réponses parallèles anglais-bangla. Évaluation de 9 LLM montre que les questions en anglais augmentent la substitution globale et réduisent la couverture des perspectives locales, même avec des preuves locales.

BenchmarksAlignementSécurité IA
SIG
75
HYP
15
arXiv cs.CL·

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Étude comparative de classification de sujets multi-label en zero-shot utilisant des graphes de connaissances extraits des documents. Framework testé sur 15 LLMs et 8 datasets : la variante keyword-enhanced surpasse la baseline, l'augmentation par graphe aide les petits modèles mais nuit aux grands, et le self-consistency decoding augmente les coûts sans amélioration.

RAGBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

Cross-Lingual Steering for Figurative Language Generation

Étude d'activation steering sur quatre LLMs multilingues (5 catégories figuratives, 6 langues). Les directions d'activation apprises dans une langue transfèrent efficacement vers d'autres, notamment l'allemand. Les directions composites cross-lingues égalent ou surpassent les directions natives, prouvant l'existence de signaux figuratifs réutilisables mais dépendants de la langue cible.

RaisonnementMulti-agentsPapers
SIG
78
HYP
15
arXiv cs.AI·

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Étude sur l'auto-évolution des harnesses (prompts, skills, mémoires, outils) dans les agents LLM. Analyse deux capacités : harness-updating (produire des mises à jour utiles) et harness-benefit (en bénéficier). Résultats : harness-updating est indépendant de la capacité de base (Qwen3.5-9B rivalise avec Claude Opus), tandis que harness-benefit suit une courbe non-monotone (modèles mid-tier bénéficient le plus).

Agents IAPrompt engineeringBenchmarks
SIG
75
HYP
15
arXiv cs.LG·

DisjunctiveNet: Neural Symbolic Learning via Differentiable Convexified Optimization Layers

DisjunctiveNet propose une méthode neuro-symbolique pour intégrer des contraintes logiques et linéaires mixtes directement dans les réseaux de neurones via des couches d'optimisation différentiables. Utilisant des relaxations convexes hiérarchiques, le framework garantit la satisfaction exacte des règles tout en maintenant la performance prédictive sur des données réelles.

RaisonnementPapers
SIG
75
HYP
15
arXiv cs.LG·

Scientific Machine Learning for Engine Health Management and Remaining Useful Life Prediction

Framework de machine learning scientifique pour la prédiction de durée de vie utile restante (RUL) de turbines. Combine encodeur partagé (CNN + LSTM bidirectionnel + attention) avec têtes spécialisées pour prédire température turbine, delta température et RUL avec intervalles de confiance. Évaluation sur données réelles hétérogènes et non-stationnaires via MAE, PICP, MPIW et CWC.

RaisonnementMulti-agentsBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

Benchmarking Machine Learning Uncertainty Quantification Methodologies for Predicting Turbine Gas Temperature Degradation

Comparaison de 5 méthodes de quantification d'incertitude (Delta, Bayesian Monte Carlo Dropout, Bootstrap, LUBE, MVE) pour prédire la dégradation de température de turbine. Évaluation sur dataset réel avec métriques de couverture et largeur d'intervalle. Trade-offs identifiés entre précision et fiabilité.

BenchmarksÉvaluationsRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Early Prediction of Future Behavioral Strategy from Process Traces

Modèle de variable latente au niveau processus (PLVM) pour prédire les stratégies comportementales futures à partir de traces partielles inter-tâches. Testé sur PowerWash Simulator : fusion de traces de deux tâches de nettoyage prédit si un joueur adoptera une stratégie « Zone Planner » ou « Zone Hopper » sur un niveau inédit. Utile pour systèmes adaptatifs (tuteurs, jeux, IA collaborative).

Reinforcement learningÉvaluationsAgents IA
SIG
72
HYP
15
arXiv cs.LG·

DisasterLex: An Expert Concept-to-Schema Knowledge Graph for Geospatial Reasoning in Disaster Analytics

DisasterLex est un framework text-to-SQL médiatisé par graphe de connaissances pour interroger des bases de données géospatiales en gestion de catastrophes. Il utilise un Expert Knowledge Graph (107 concepts, 117 arêtes causales) pour router les requêtes naturelles vers 36 tables hétérogènes. Sur 75 requêtes, il surpasse 4 baselines (LightRAG, HippoRAG 2, ReFoRCE, CHESS) de 1.4x à 2.75x.

RAGRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

Discovering a Zeta Map Algorithm on Dyck Paths via Mechanistic Interpretability

Chercheurs entraînent un petit transformer encoder-decoder sur la zeta map (bijection classique des nombres q,t-Catalan). Via mechanistic interpretability (cross-attention, linear probing, causal intervention), ils découvrent un mécanisme basé sur les niveaux des chemins de Dyck. Traduction en algorithme explicite (scaffolding map) prouvé équivalent à la zeta map.

RaisonnementPapers
SIG
78
HYP
15
arXiv cs.LG·

Scalable Constrained Multi-Agent Reinforcement Learning via State Augmentation and Consensus for Separable Dynamics

Méthode distribuée pour l'apprentissage par renforcement multi-agent avec contraintes globales. Les agents apprennent une politique augmentée hors ligne et coordonnent via consensus local sur les multiplicateurs de Lagrange. Scalabilité linéaire jusqu'à des milliers d'agents, démonstration sur réseaux électriques intelligents.

Multi-agentsReinforcement learningPapers
SIG
78
HYP
15
arXiv cs.LG·

A Unified Framework for Gradient Aggregation in Multi-Objective Optimization

Framework unifié pour l'agrégation de gradients en optimisation multi-objectif. Les auteurs établissent des taux de convergence vers la stationnarité de Pareto via une condition d'alignement suffisant et montrent que les directions non-conflictuelles dans l'enveloppe convexe des gradients garantissent la convergence. Ils introduisent capped MGDA basé sur CVaR et valident sur benchmarks.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

Bounded Behavioral Indistinguishability for Black-Box LLM Distillation

Étude de la distillation de LLM en boîte noire via la notion de « bounded behavioral indistinguishability ». Les auteurs évaluent des paires Qwen et Llama avec une suite de 5 000 prompts, montrant que LoRA améliore la similarité sémantique (0.788→0.862 pour Qwen, 0.814→0.874 pour Llama) mais laisse subsister des différences comportementales détectables par adversaires.

Fine-tuningÉvaluationsSécurité IA
SIG
72
HYP
18
arXiv cs.CL·

TeachObs: A Human-Validated Benchmark for Multimodal Teaching Observation and Model Evaluation

TeachObs est un benchmark multimodal validé par des humains pour l'analyse de vidéos de classe. Il contient 30 leçons publiques de 8 pays, divisées en 5 158 scènes de 15 secondes, annotées par 7 chercheurs avec 39 codes d'observation (20 visuels, 19 non-visuels). Évaluation de 5 LLMs vision sur 3 tâches : aucun modèle ne surpasse les autres systématiquement.

BenchmarksVisionÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

Étude de la stabilité sémantique de 16 LLMs (génériques et médicaux) face à des reformulations de prompts cliniquement équivalentes. Propose un cadre de vérification basé sur l'inférence en langage naturel et trois métriques (MVS, ΔC, WCI). Résultat : la spécialisation domaine n'améliore pas systématiquement la robustesse aux variations sémantiques.

ÉvaluationsSécurité IARaisonnement
SIG
78
HYP
15