Page 8 sur 192

ToutHaut signalRécent

7679 articles

Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance

PhysAssistBench est un benchmark d'assistance médecale interactive basé sur 1 296 tours validés par des médecins, construits à partir de cas réels MIMIC-IV. Il évalue la capacité des LLMs à coordonner connaissances cliniques, communication patient et interaction EHR dans un même dialogue. Les expériences montrent que les modèles actuels restent peu fiables dans ce contexte.

Benchmarks Agents IA Multi-agents

SIG

HYP

arXiv cs.LG·18 juin

Ghost Attractor Networks: Basin-Structured Dynamical Decoders for Closed-Loop Sequential Generation

Ghost Attractor Networks propose un décodeur dynamique efficace pour la génération séquentielle en robotique. Avec 2,3M paramètres, il égale la précision d'un Diffusion Transformer de 1,07B paramètres (462× moins de paramètres, 32× plus rapide). Sur LIBERO-10, le conditionnement de phase améliore le taux de succès de 13,5 points vs MLP.

Génération de code Robotique Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

Nouvel ordonnanceur pour l'inférence LLM qui remplace la prédiction de longueur par des signaux statistiques légers et l'ajustement dynamique de priorités. Réduit P99 TTLT de 35-50% vs SRPT avec connaissance parfaite de longueur, et TTFT de 34-47% sur traces production et open-source.

Benchmarks Infrastructure Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

TW-LegalBench: Measuring Taiwanese Legal Understanding

TW-LegalBench évalue 13 LLMs sur le droit taïwanais avec 16 000+ questions à choix multiples, 117 essais ouverts et 14 000+ cas de prédiction judiciaire. Les meilleurs modèles dépassent le seuil de qualification des avocats (11%) mais échouent pour juges/procureurs (1-2%). Les modèles peinent à citer les articles légaux exacts.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

ScholarSum propose un cadre hiérarchique basé sur graphes de connaissances pour la résumé abstractif scientifique. Le système organise les documents en unités sémantiques cohérentes, génère un brouillon initial, puis l'affine via un processus itératif de vérification et de réécriture pour assurer cohérence logique et fidélité factuelle.

Papers RAG Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

VISUALSKILL: Multimodal Skills for Computer-Use Agents

VISUALSKILL propose des compétences multimodales hiérarchiques pour les agents d'interaction informatique. Combinant documentation et exploration UI en direct, le système améliore les performances de Claude Opus 4.6 de +15.3 points sur CUA-World et OSExpert-Eval (0.456 vs 0.303 baseline). Les figures visuelles surpassent les descriptions textuelles (+8.3 points).

Claude Agents IA MCP

SIG

HYP

arXiv cs.CL·18 juin

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

MCompassRAG améliore les systèmes RAG en utilisant des métadonnées de sujets comme guide sémantique pour la récupération de paragraphes. La méthode enrichit les représentations de chunks avec des signaux au niveau des sujets dans le même espace d'embedding et entraîne un retrieveur léger par distillation LLM. Sur six benchmarks, elle gagne 8,24% en efficacité informationnelle avec 5× moins de latence.

RAG Embeddings Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

PROPEL est un framework qui entraîne des générateurs de tâches via RL pour créer des problèmes optimaux pour l'apprentissage d'agents. Une sonde légère prédit le taux de résolution sans rollouts répétés du solveur, réduisant l'évaluation à un forward pass. Sur code et SWE, les tâches au « learnable frontier » passent de 10,1% à 20% (Qwen2.5-3B) et de 9,8% à 19,6% (Qwen3.5-27B).

Reinforcement learning Agents IA Génération de code

SIG

HYP

arXiv cs.AI·18 juin

X+Slides: Benchmarking Audience-Conditioned Slide Generation

X+Slides est un benchmark pour l'évaluation de la génération de diapositives adaptées à l'audience. Construit sur 113 sujets et 8 133 sondes, il mesure quatre métriques : couverture audience, couverture par domaine, efficacité et exactitude. Les tests sur DeepPresenter, SlideTailor et NotebookLM montrent des taux de couverture audience entre 0,594 et 0,853.

Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·18 juin

Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text

Benchmark d'évaluation de 1 200 documents cliniques avec 9 184 annotations d'incertitude diagnostique. Les LLM préservent mal les expressions d'incertitude (moins de 50% des cas) et confondent les niveaux adjacents. Révèle un défaut non détecté par les métriques standard.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

CoreMem propose une architecture mémoire pour agents dialogues personnalisés sur appareils edge (8 GB VRAM). Utilise la métrique Fisher-Rao pour la récupération (remplaçant la similarité cosinus) et la distillation de tokens guidée par Fisher pour la compression. Gains de +4.51 pp en raisonnement open-domain et +4.17 pp en raisonnement temporel sur LOCOMO et LongMemEval-S.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.CL·18 juin

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

Étude arXiv sur l'amélioration du raisonnement long-contexte via une approche data-centric plutôt que l'ingénierie des récompenses. Recette de données ciblant retrieval, synthèse multi-preuves et raisonnement (~14K exemples). Tests sur Qwen3 (4B/8B/30B) : +7.2/+3.2/+6.4 points sur 7 benchmarks long-contexte, transfert aux tâches agentic (+4.8 GAIA, +7.0 BrowseComp).

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.LG·18 juin

What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy

Étude sur le grokking (transition retardée de la mémorisation à la généralisation). Les auteurs montrent que la norme des poids ne contrôle pas directement le délai de grokking, mais agit via l'échelle des logits. En fixant la norme et variant la température de sortie, ils retrouvent 85% du délai en ajustant l'échelle logit. L'effet dépend de la fonction de perte (cross-entropy vs MSE).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL optimise la cohérence entre les auto-explications et le comportement des modèles de langage via apprentissage par renforcement. Sur un task de raisonnement probabiliste, la méthode améliore la corrélation R² de 0.24 à 0.64. En IA constitutionnelle, elle augmente la prédiction des refus de 36% à 92% et réduit le taux d'échec HarmBench de 15.0% à 0.5%.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.CL·18 juin

Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation

DICE améliore la récupération de documents longs en fragmentant le texte, encodant chaque chunk indépendamment, puis agrégant les vecteurs en une seule représentation. Sur LongEmbed, les gains atteignent 90.0 pour Dream Passkey >4k (vs 30.0) et 74.0 pour Needle >4k (vs 23.3). L'approche réduit l'indice de dilution d'évidence (EDI) dans 92.8% des cas.

RAG Embeddings Recherche vectorielle

SIG

HYP

arXiv cs.AI·18 juin

ARIADNE: Agnostic Routing for Inference-time Adapter DyNamic sElection

ARIADNE est un framework sans entraînement pour sélectionner dynamiquement des adaptateurs au moment de l'inférence. Il représente chaque adaptateur par des centroïdes calculés à partir des embeddings de son ensemble d'entraînement. Testé sur Llama 3.2 1B avec 23 tâches NLP, il récupère 97,44% des performances optimales et atteint 89,7% de précision sur 44 tâches.

Fine-tuning Llama Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Les autoencodeurs creux (SAE) décomposent les activations en features interprétables, mais une étude montre que bloquer une feature « dangereuse » ne supprime pas le comportement : celui-ci peut se rétablir via d'autres chemins résiduels. Même avec intervention active, 95,8% de récupération du comportement est possible en refusal-steering, révélant un écart entre contrôle des features et contrôle comportemental.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT affine la distribution des données d'entraînement SFT via des fonctions d'influence on-policy. La méthode utilise les rollouts du modèle comme cibles de validation pour minimiser l'écart de proximité et corriger le biais de norme de gradient. Tests sur modèles 7B montrent une amélioration du plafond de performance vs baselines.

Fine-tuning Reinforcement learning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

CODEBLOCK: Learning to Supervise Code at the Right Granularity

CodeBlock est un framework de supervision sparse pour l'entraînement de LLMs de code. Il sélectionne des blocs de code syntaxiquement cohérents plutôt que des tokens isolés, en estimant leur utilité via cross-entropy généralisée et signaux de flux de données. Sur 6 benchmarks, CodeBlock surpasse la SFT full-token en utilisant seulement 1,9% des tokens supervisés.

Génération de code Fine-tuning Papers

SIG

HYP

arXiv cs.LG·18 juin

Measurement noise limits the advantage of nonlinear models over linear models in biomedical prediction

Une étude arXiv montre que sur données biomédicales tabulaires, le bruit de mesure limite l'avantage des modèles non-linéaires (réseaux profonds, gradient boosting) sur la régression linéaire. Les interactions de degré k sont atténuées par la k-ième puissance de la fiabilité des features, tandis que la partie linéaire ne l'est qu'une fois. Analyse de 140 tâches UK Biobank confirmant cette signature du bruit.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

Decoupled Search Grounding (DSG) découple la recherche du raisonnement via une passerelle compatible MCP. Sur SimpleQA, FreshQA et HotpotQA, DSG atteint 86,1% de précision (vs 87,7% natif) avec 91% de coût réduit et 68% de latence inférieure. En production e-commerce, DSG réduit le coût de recherche de 98% tout en maintenant la précision.

Agents IA MCP RAG

SIG

HYP

arXiv cs.LG·18 juin

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

L'étude montre que l'overtraining en SFT peut inverser le classement des modèles lors du fine-tuning RLVR. Sur Qwen2.5-Coder-3B, l'augmentation de la profondeur SFT élève pass@1 pré-RL mais réduit pass@10 GRPO de 0.806 à 0.481. L'entropie pré-RL corrèle positivement avec les résultats RLVR (ρ=+0.69). Un diagnostic deux étapes basé sur l'entropie peut identifier les checkpoints à risque.

Reinforcement learning Fine-tuning Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face

LoopCoder-V2 est un modèle de code 7B basé sur Parallel Loop Transformer (PLT) qui améliore les performances par calcul au test-time via deux passes de blocs Transformer partagés. Entraîné sur 18T tokens de données mixtes texte/code, il atteint 64.4 sur SWE-bench Verified (vs 43.0 baseline), avec deux boucles comme optimum gain-coût.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

The Benchmark Illusion: Pruned LLMs Can Pass Multiple Choice but Fail to Answer

Les modèles élaguées passent les benchmarks à choix multiples mais échouent en génération ouverte. Étude multilingue montrant que sous élagage haute sparsité (Wanda), les réponses correctes sont démotées plutôt qu'effacées : elles réapparaissent avec beam search ou sampling. Les benchmarks à choix multiples surestiment l'utilisabilité des LLM compressés.

Benchmarks Évaluations Fine-tuning

SIG

HYP

arXiv cs.LG·17 juin

CheckMIABench: Firm Foundations For Membership Inference Attacks on Language Models

CheckMIABench propose un benchmark pour évaluer les attaques d'inférence d'appartenance (MIA) sur les modèles de langage. En exploitant les checkpoints intermédiaires de modèles open-source (Pythia, OLMo, 70M-7B), les auteurs créent des testbeds fiables où les données avant/après un point fixe partagent la même distribution. Ils testent six attaques publiées et ouvrent une librairie modulaire (pandora_llm).

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery

Étude sur le routage d'agents en production : avec 110 agents et 584 outils, la précision F1 chute de 16-23 points sur requêtes sous-spécifiées. L'analyse révèle deux sources : retrieval gap et confusion gap (10pp). Le shortlisting par embeddings récupère +10-11pp F1 à grande échelle.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Operator Boosting Produces Pareto-Efficient PDE Surrogates

Operator Boosting construit des surrogates compacts de réseaux de neurones pour résoudre les EDPs via apprentissage résiduel par étapes. Testé sur FNO, DeepONet et CNO sur 30 benchmarks (PDEBench, APEBench), la méthode réduit les paramètres de 72-95% tout en améliorant la précision sur 21 paires dataset-architecture et obtient des gains Pareto sur 7/10 benchmarks EDPs.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·17 juin

MemTrace: Probing What Final Accuracy Misses in Long-Term Memory

MemTrace est un benchmark évaluant la mémoire long-terme des agents LLM selon trois dimensions : l'âge de la mémoire, le type de question (état actuel, antérieur, trajectoire) et les conditions de preuve. Sur 13 configurations testées, l'étude révèle que l'utilisation des preuves est le goulot d'étranglement principal (10× plus souvent disponibles que manquantes), non la récupération.

Agents IA Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

When the Next Step Is Not One Step: Distribution-Aware Execution Modeling for Concurrent Go Programs

Modèle 7B fine-tuné pour prédire l'étape suivante dans des programmes Go concurrents en apprenant une distribution d'événements plutôt qu'une étiquette unique. Sur 798 prédictions issues de bugs réels (CockroachDB, Kubernetes, gRPC, etcd), atteint 36.2% de précision avec <1000 traces, surpassant Gemini 3.5 Flash zéro-shot (34.8%). Dataset, adapters et outils publiés.

Génération de code Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·17 juin

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

SpeechDx est un benchmark multi-tâches pour l'IA clinique basée sur la parole, couvrant 12 datasets et 27 tâches sur diverses conditions de santé. Les tâches sont structurées par étapes de production vocale (conceptualisation, formulation, articulation). L'évaluation de 12 encodeurs audio montre que les modèles de parole à grande échelle surpassent les modèles spécialisés, mais aucun ne généralise fiablement.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Surrogate Assisted Pedestrian Protection Design via a Foundation Model Orchestrated Workflow

Workflow d'optimisation de sécurité piétonne orchestré par modèle de fondation. Intègre surrogate ML (R²=0.87), recherche évolutionnaire multi-objectif, générateur de géométrie et interface LLM. Réduit temps d'évaluation de heures à secondes ; produit 35 alternatives conformes en cas d'étude pare-chocs automobile.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Decoding Hidden Deception in Reasoning LLMs: Activation Explainers for Deception Auditing

STATEWITNESS, un expliciteur d'activations, détecte la tromperie dans les LLMs de raisonnement en lisant les états cachés du modèle cible et répondant à des requêtes en langage naturel. Atteint 0.916 AUROC, +11.6% vs meilleur moniteur texte black-box, +25.0% vs baseline probe. Fournit traces d'évidence au niveau token/phrase pour inspection humaine.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·17 juin

PowerOPD: Stabilizing On-Policy Distillation with Bounded Power Transformation

PowerOPD stabilise la distillation on-policy pour LLM en remplaçant la récompense log-ratio non-bornée par une transformation Box-Cox paramétrée. Sur 6 benchmarks de raisonnement mathématique avec Qwen3, gains de +6.37 Avg@8/+5.71 Pass@8 vs OPD vanilla, réduction de 59.2% du temps et 23.1% de mémoire GPU.

Fine-tuning Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search

DivInit améliore l'échelle de test pour la recherche agentic en diversifiant les requêtes initiales. Au lieu d'échantillonner k requêtes indépendantes en parallèle, la méthode génère n candidats puis sélectionne k graines diversifiées. Gains de 5-7 points sur QA multi-hop sans coût computationnel supplémentaire, validé sur 5 modèles open-weight et 8 benchmarks.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL

DecoSearch est un framework sans entraînement pour la traduction texte-vers-SQL qui route les requêtes selon leur complexité. Un sélecteur de schéma élagué la base de données, un jugeur LLM décide si décomposition est nécessaire, et un DAG résout les sous-questions atomiques. Atteint 70,53% sur BIRD et 88,31% sur Spider avec DeepSeek, surpassant les baselines sans entraînement.

Génération de code Raisonnement RAG

SIG

HYP

arXiv cs.LG·17 juin

MODE: Modality-Decomposed Expert-Level Mixed-Precision Quantization for MoE Multimodal LLMs

MODE est une méthode de quantification mixte-précision au niveau expert pour les modèles multimodaux MoE. Elle décompose la fréquence de sélection des experts par modalité (vision/texte) et filtre les tokens visuels redondants pour corriger les biais d'estimation. Résultats : perte de performance <2.9% en W3A16.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.CL·17 juin

An expressivity analysis of hierarchical modelling in deep transformers via bounded-depth grammars

Analyse théorique de l'expressivité des transformers profonds via des grammaires sans contexte de profondeur bornée. Les auteurs construisent explicitement des transformers avec attention positionnelle dont la profondeur croît linéairement avec celle de la grammaire, démontrant que ces architectures peuvent encoder des états grammaticaux abstraits dans des sous-espaces linéairement séparables du flux résiduel.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

ChLogic est un benchmark bilingue anglais-chinois évaluant la robustesse du raisonnement logique dans les LLM. Construit à partir de templates logiques formels, il contient 100 propositions alignées et 15 phénomènes spécifiques au chinois. Les expériences sur Qwen3, Ministral et GLM révèlent un écart de performance persistant anglais-chinois, la rétrotraduction produisant des effets mixtes.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models

Les modèles de raisonnement entraînés par RL génèrent souvent du raisonnement inutile après avoir trouvé la bonne réponse (overthinking). Cet article propose Dynamic Rollout Editing (DRE), une intervention au moment de l'entraînement GRPO qui édite les trajectoires réussies continuant après l'émergence de la réponse, préservant le préfixe vérifié et affaiblissant le signal de préférence pour la pensée inutile.

Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reports

Étude sur 450 rapports de radiologie thoracique montrant que la réécriture par LLM pour standardisation préserve l'alignement image-texte (2,5% de dégradation) mais érode 26,8-29,3% des entités cliniques et 14,9-16,5% du langage d'incertitude. Le paradoxe : les tâches produisant du texte « plus propre » éloignent le contenu de l'image.

Vision RAG Évaluations

SIG

HYP