RSS

arXiv cs.CL

Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text

Benchmark d'évaluation de 1 200 documents cliniques avec 9 184 annotations d'incertitude diagnostique. Les LLM préservent mal les expressions d'incertitude (moins de 50% des cas) et confondent les niveaux adjacents. Révèle un défaut non détecté par les métriques standard.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction

RPCL, un framework d'entraînement pour l'extraction de paires émotion-cause multimodales, améliore la robustesse des scores de confiance. Via des contraintes de marge et une corruption contextuelle, il augmente le F1 de 2.58–2.83 points sur ECF/MECAD/MEC4 sans modifier l'inférence.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.CL·18 juin

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

Étude arXiv testant la capacité des LLM à interpréter la négation dans le langage figuré. Les chercheurs enrichissent un dataset existant et évaluent plusieurs modèles. Résultat : la combinaison négation + figuré pose un défi particulier, avec forte dépendance au style de prompt.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Redact or Keep? A Fully Local AI Cascade for Educational Dialogue De-Identification

Framework local de dé-identification pour dialogues éducatifs. Cascade à deux étages : proposeur union (encodeurs légers + règles déterministes) génère candidats PII, puis reviewer binaire Redact/Keep utilise contexte et rôle du locuteur. Atteint 0.958 F1 macro sur transcriptions tutoriel math, surpasse LLM commercial (0.706) et baseline locale (0.767), s'exécute sur laptop unique.

RAG Sécurité IA Papers

SIG

HYP

arXiv cs.CL·18 juin

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

JetFlow améliore le speculative decoding en combinant l'efficacité du drafting parallèle avec le conditionnement causal par branche. Sur GPU H100, il atteint 9.64x speedup sur MATH-500 et 4.58x sur conversations ouvertes, dépassant les méthodes tree-based existantes sur modèles Qwen3 denses et MoE.

Benchmarks Génération de code Open source

SIG

HYP

arXiv cs.CL·18 juin

VISUALSKILL: Multimodal Skills for Computer-Use Agents

VISUALSKILL propose des compétences multimodales hiérarchiques pour les agents d'interaction informatique. Combinant documentation et exploration UI en direct, le système améliore les performances de Claude Opus 4.6 de +15.3 points sur CUA-World et OSExpert-Eval (0.456 vs 0.303 baseline). Les figures visuelles surpassent les descriptions textuelles (+8.3 points).

Claude Agents IA MCP

SIG

HYP

arXiv cs.CL·18 juin

LLM Parameters for Math Across Languages: Shared or Separate?

Étude mécanistique du raisonnement mathématique dans les LLM multilingues. Les paramètres associés aux maths montrent un chevauchement partiel entre langues, concentré dans les couches intermédiaires. L'anglais produit le plus grand ensemble de paramètres pertinents, tandis que les langues peu dotées en ressources en révèlent moins.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Montreal Forced Aligner and the state of speech-to-text alignment in 2026

Montreal Forced Aligner 3.0, outil de référence depuis 2016 pour l'alignement forcé parole-texte, atteint des performances état-de-l'art sur l'anglais, le japonais et le coréen avec erreurs limites <15ms. Nouvelles capacités : adaptation de modèles, remappage cross-langue, couverture étendue (langues/dialectes), dictionnaires IPA harmonisés.

Voix Benchmarks Open source

SIG

HYP

arXiv cs.CL·18 juin

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

Étude de l'impact collatéral du machine unlearning sur les LLM. Les auteurs montrent que les dégâts s'étendent au-delà du forget set selon un gradient de distance sémantique, et proposent PreUnlearn, une méthode de prédiction pré-unlearning pour auditer les risques avant exécution.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

Towards Scalable Customization and Deployment of Multi-Agent Systems for Enterprise Applications

Framework pour la customisation et le déploiement efficace de systèmes multi-agents LLM en entreprise. Combine préentraînement continu, fine-tuning supervisé et optimisation de préférences pour adapter des modèles compacts à des domaines spécialisés. Intègre décodage spéculatif et quantification FP8 pour réduire latence et coûts. Atteint 4.48x d'accélération de débit tout en maintenant la performance.

Multi-agents Fine-tuning Business

SIG

HYP

arXiv cs.CL·18 juin

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

MCompassRAG améliore les systèmes RAG en utilisant des métadonnées de sujets comme guide sémantique pour la récupération de paragraphes. La méthode enrichit les représentations de chunks avec des signaux au niveau des sujets dans le même espace d'embedding et entraîne un retrieveur léger par distillation LLM. Sur six benchmarks, elle gagne 8,24% en efficacité informationnelle avec 5× moins de latence.

RAG Embeddings Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Dual Dimensionality for Local and Global Attention

Les chercheurs proposent Distance-Adaptive Representation (DAR) : réduire la dimensionnalité des clés/valeurs au-delà d'une fenêtre locale dans les Transformers décodeur-seul. Les tokens proches nécessitent des représentations complètes pour prédire le token suivant, tandis que les tokens distants peuvent utiliser 1/4 de la dimensionnalité originale sans dégradation. Testé sur modèles 70M-410M et fine-tuning 1B.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Low-resource Language Discrimination Towards Chinese Dialects with Transfer learning and Data Augmentation

Framework CDDTLDA pour discriminer les dialectes chinois en contexte de ressources limitées. Utilise transfer learning sur modèles ASR, augmentation de données (vitesse, pitch, bruit) et mécanisme d'auto-attention pour capturer les features sémantiques communes. Surpasse les méthodes SOTA sur deux corpus de référence.

Voix Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Steerable Cultural Preference Optimization of Reward Models

Nouvelle méthode SCPO pour entraîner des reward models capables de représenter équitablement les préférences culturelles de différentes communautés. Gains de 7 points pour les modèles minoritaires sur PRISM et GlobalOpinionQA (7 pays), avec 280% d'efficacité accrue en données d'entraînement.

Alignement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·18 juin

BCL: Bayesian In-Context Learning Framework for Information Extraction

BCL est un framework d'optimisation pour l'extraction d'information utilisant le filtrage particulaire et les mises à jour bayésiennes. Il affine systématiquement les représentations d'étiquettes pour le labeling de séquences et la classification de relations, montrant des améliorations consistantes sur plusieurs échelles de modèles.

Prompt engineering Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

PEC-Home: Interpretation of Progressively Elliptical Commands in Smart Homes

PEC-Home est un dataset simulé pour interpréter les commandes elliptiques progressives dans les maisons intelligentes. Les assistants actuels (GPT-4o inclus) échouent à exécuter correctement ces commandes abrégées dues à l'accumulation de contexte partagé, même avec accès à l'historique de dialogue.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.CL·18 juin

TW-LegalBench: Measuring Taiwanese Legal Understanding

TW-LegalBench évalue 13 LLMs sur le droit taïwanais avec 16 000+ questions à choix multiples, 117 essais ouverts et 14 000+ cas de prédiction judiciaire. Les meilleurs modèles dépassent le seuil de qualification des avocats (11%) mais échouent pour juges/procureurs (1-2%). Les modèles peinent à citer les articles légaux exacts.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Morpheus est un tokeniseur neural morphologie-aware pour le turc agglutinant. Le modèle utilise une programmation dynamique Poisson-binomial différentiable pour segmenter les morphèmes avec une compression de 1.425 bits/caractère et un alignement morphologique MorphScore F1 de 0.61 (vs ~0.32 pour les tokeniseurs subword). Lossless par construction : decode(encode(w)) = w.

Embeddings Papers Open source

SIG

HYP

arXiv cs.CL·18 juin

Output Vector Editing for Memorization Mitigation in Large Language Models

Méthode de suppression de mémorisation dans les LLM par édition des vecteurs de sortie des neurones MLP. Testée sur 4 modèles (360M-7B paramètres), atteint 87,9% de suppression sur OLMo-7B avec 6831 séquences mémorisées. Approche complémentaire aux méthodes d'ablation neuronale existantes.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

RedactionBench

RedactionBench est un benchmark de 200 documents annotés manuellement couvrant 11 domaines pour évaluer la redaction d'informations personnelles (PII) en contexte. Introduit avec R-Score, une métrique au niveau caractère, il montre que 35 modèles (NER, SLM, frontier models) échouent sur les redactions contextuelles : consensus humain à 89,4% pour redactions obligatoires, 47,7% pour redactions contextuelles.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

Étude sur l'évaluation des rapports radiologiques générés par IA. Les chercheurs montrent que les LLM existants pénalisent excessivement les reformulations inoffensives tout en détectant les erreurs cliniques. Ils entraînent des métriques légères sur Qwen3-8B et MedGemma-4B surpassant des modèles médicaux 32B, avec publication du dataset et de la métrique.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·18 juin

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

ScholarSum propose un cadre hiérarchique basé sur graphes de connaissances pour la résumé abstractif scientifique. Le système organise les documents en unités sémantiques cohérentes, génère un brouillon initial, puis l'affine via un processus itératif de vérification et de réécriture pour assurer cohérence logique et fidélité factuelle.

Papers RAG Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Approximate Structured Diffusion for Sequence Labelling

Nouvelle approche combinant diffusion et CRF pour le sequence labelling en NLP. La méthode conditionne un CRF sur la séquence complète de labels (bruitée), contournant les limitations de portée des CRF classiques. Résultats : réduction d'erreur de 16.5% sur le POS-tagging.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Improving Medical Communication using Rubric-Guided Counterfactual Recommendations

Pipeline de recommandations contrefactuelles guidées par LM pour améliorer la communication médicale en télémédecine textuelle. Le système identifie des features interprétables (ton, personnalisation, clarté, complétude) et recommande des changements minimaux de communication prédits pour augmenter le feedback positif (+6.41% en moyenne). Les modifications préservent le contenu médical et le contrôle du médecin.

Raisonnement Évaluations RAG

SIG

HYP

arXiv cs.CL·18 juin

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

SAGE est un framework d'optimisation stochastique de prompts via exploration guidée par agents multi-agents. Comparaison de trois stratégies : recherche aléatoire informée par erreurs, algorithme génétique, et SAGE avec exécution de code diagnostique. Déploiement sur chatbot santé mentale : 8 cycles d'A/B tests bruyants produisent un gain statistiquement robuste en rétention.

Prompt engineering Agents IA Multi-agents

SIG

HYP

arXiv cs.CL·18 juin

Continuous Audio Thinking for Large Audio Language Models

Continuous Audio Thinking (CoAT) ajoute un espace latent continu aux modèles audio-langage pour préserver les informations acoustiques (phonétique, prosodie, affect, pitch) avant génération de texte. Testé sur Qwen2-Audio, Qwen2.5-Omni-7B et Audio Flamingo, CoAT améliore les performances en raisonnement audio, classification musicale et transcription sans coût de décodage supplémentaire.

Raisonnement Voix Qwen

SIG

HYP

arXiv cs.CL·18 juin

Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation

Activation steering améliore la génération de données synthétiques pour les langues peu dotées. Deux stratégies testées : Language Steering (identité linguistique) et Quality Steering (bien-formedness). Évaluation sur 4 LLMs open-source, 11 langues, tâches de classification. Steering sur couches précoces augmente la diversité et la performance aval.

Prompt engineering Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

CoreMem propose une architecture mémoire pour agents dialogues personnalisés sur appareils edge (8 GB VRAM). Utilise la métrique Fisher-Rao pour la récupération (remplaçant la similarité cosinus) et la distillation de tokens guidée par Fisher pour la compression. Gains de +4.51 pp en raisonnement open-domain et +4.17 pp en raisonnement temporel sur LOCOMO et LongMemEval-S.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.CL·18 juin

Speech-Driven End-to-End Language Discrimination towards Chinese Dialects

Article proposant une approche speech-driven pour la discrimination entre dialectes chinois. Combine features MFCC, modèle HMM-DNN pour la reconnaissance vocale, attention mechanism et CNN. Évaluation sur deux corpus benchmark montre amélioration vs état de l'art.

Voix Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance

PhysAssistBench est un benchmark d'assistance médecale interactive basé sur 1 296 tours validés par des médecins, construits à partir de cas réels MIMIC-IV. Il évalue la capacité des LLMs à coordonner connaissances cliniques, communication patient et interaction EHR dans un même dialogue. Les expériences montrent que les modèles actuels restent peu fiables dans ce contexte.

Benchmarks Agents IA Multi-agents

SIG

HYP

arXiv cs.CL·18 juin

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST est un framework auto-supervisé qui améliore le raisonnement pragmatique des LLM via des traces de raisonnement contrefactuel. Sans données annotées humaines, il combine fine-tuning supervisé et apprentissage par renforcement. Sur 4 benchmarks (PragMega, Ludwig, MetoQA, AltPrag), il gagne +5.37% et +5.50% en absolu pour Qwen3-8B et Qwen3-14B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·18 juin

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

RegMix-D étend RegMix en utilisant les trajectoires complètes de perte des runs proxy, pas seulement les pertes finales, pour prédire des mélanges de données optimaux à plusieurs étapes d'entraînement. Testé sur 25B tokens du Pile avec un modèle 1B, RegMix-D surpasse RegMix et DoReMi sur 13 tâches aval avec 75% moins de calcul proxy.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

Étude évaluant 42 LLMs (propriétaires et open-source) sur leur capacité à mesurer la discrimination d'items en compréhension de lecture. Les modèles échouent : corrélation de Spearman de 0,152 en prédiction directe, 0,241 en calibration CTT. Les LLMs ne capturent pas fiablement comment les items distinguent les étudiants de niveaux différents.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·18 juin

Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation

DICE améliore la récupération de documents longs en fragmentant le texte, encodant chaque chunk indépendamment, puis agrégant les vecteurs en une seule représentation. Sur LongEmbed, les gains atteignent 90.0 pour Dream Passkey >4k (vs 30.0) et 74.0 pour Needle >4k (vs 23.3). L'approche réduit l'indice de dilution d'évidence (EDI) dans 92.8% des cas.

RAG Embeddings Recherche vectorielle

SIG

HYP

arXiv cs.CL·18 juin

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

Étude arXiv sur l'amélioration du raisonnement long-contexte via une approche data-centric plutôt que l'ingénierie des récompenses. Recette de données ciblant retrieval, synthèse multi-preuves et raisonnement (~14K exemples). Tests sur Qwen3 (4B/8B/30B) : +7.2/+3.2/+6.4 points sur 7 benchmarks long-contexte, transfert aux tâches agentic (+4.8 GAIA, +7.0 BrowseComp).

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.CL·18 juin

Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining

ImpSH, un framework basé sur les triplets, améliore la détection de discours haineux implicite en alignant les posts avec leurs énoncés implicites et en utilisant des négatifs semi-durs bornés par le contexte. Évalué sur IHC, SBIC et DynaHate avec BERT et HateBERT, il améliore la performance cross-domain et offre une représentation plus stable que les approches contrastives supervisées standard.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.CL·18 juin

Efficient Financial Language Understanding via Distillation with Synthetic Data

Framework de distillation avec données synthétiques pour l'analyse de sentiment financier. Transfert de connaissances d'un modèle teacher instruction-tuned vers des modèles compacts. Sélection de seeds par clustering pour générer des données synthétiques via few-shot prompting. Le modèle compact surpasse le teacher sur textes complexes/bruyants avec supervision minimale.

Fine-tuning RAG Prompt engineering

SIG

HYP

arXiv cs.CL·17 juin

LLMs Infer Cultural Context but Fail to Apply It When Responding

Les LLMs peuvent inférer le contexte culturel mais échouent à l'appliquer dans leurs réponses. Un nouveau dataset CAPRI montre que les modèles reconnaissent les conventions culturelles (unités de mesure, interprétation du temps) mais ne les utilisent pas spontanément, sauf avec instructions explicites. Les biais restent alignés avec le pays d'origine du modèle.

Benchmarks Alignement Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

MultiClin, un benchmark ASR clinique, évalue la robustesse des modèles de reconnaissance vocale face à la variabilité multiscript (plusieurs formes orthographiques valides du même terme). Les métriques conventionnelles sous-estiment les performances. L'unification des scripts améliore significativement les résultats.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.CL·17 juin

PromptMN: Pseudo Prompting Language

PromptMN est un langage de domaine spécialisé qui structure les prompts naturels avec des directives typées préfixées par % (rôles, objectifs, contraintes, sorties). Testé sur Claude Opus 4.8, Gemini 3.1 Pro et GPT-5.5 sans fine-tuning, il réduit les ambiguïtés contextuelles dans les workflows d'agents et de développement logiciel.

Prompt engineering Agents IA Outils

SIG

HYP

arXiv cs.CL·17 juin

From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities

Étude de 4 434 posts et 50 338 commentaires sur Moltbook montrant que les indices de relations parasociales (langage d'intimité, offres de réciprocité, auto-identification) persistent dans les communautés d'agents IA autonomes. Les résultats, validés par keyword matching et annotation LLM, révèlent une association forte entre ces signaux et la ré-engagement de l'auteur original.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.CL·17 juin

Self-Generated Error Training for Token Editing in Diffusion Language Models

Méthode d'entraînement pour améliorer l'édition de tokens dans les modèles de diffusion (LLaDA2.1). Résout le décalage entre l'entraînement sur corruptions aléatoires et l'inférence sur erreurs du modèle lui-même. Utilise une passe sans gradient suivie d'une supervision sur corruptions auto-générées via LoRA. Réduit l'intensité d'édition et les erreurs de transcription.

Génération de code Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Speaking in Self-Assessing Tongues: On the Verbalized Confidence of LLMs in Machine Translation

Étude de la fiabilité de la confiance verbalisée des LLM en traduction automatique. Cinq méthodes d'extraction de confiance par token sans accès aux signaux internes sont comparées aux probabilités prédites. Résultats : performance similaire pour la détection d'erreurs et la calibration, mais faible corrélation entre méthodes internes et verbalisées.

Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task

Le groupe MLLP-VRAIN participe à IWSLT 2026 en traduction simultanée parole-parole avec Parakeet et Qwen 3.5. Système en cascade utilisant des politiques adaptatives et RAG pour enrichir la génération. Amélioration de +5.82 XCOMET-XL sur En→De vs année précédente.

Qwen RAG Génération de code

SIG

HYP

arXiv cs.CL·17 juin

Are you speaking my languages? On spoken language adherence in multimodal LLMs

Les LLM pour la reconnaissance vocale multilingue confondent souvent la langue de sortie. Les auteurs proposent trois stratégies : prompting zéro-shot, fine-tuning supervisé et raisonnement Chain-of-Thought pour améliorer l'adhérence linguistique sans contraindre strictement la sortie ni perdre les capacités de code-switching.

Voix Prompt engineering Fine-tuning

SIG

HYP

arXiv cs.CL·17 juin

Do Large Language Models Always Tell The Same Stories?

Étude comparative de la diversité narrative entre 10 LLMs et auteurs humains via r/WritingPrompts. Les modèles génèrent des histoires significativement plus similaires entre elles que les textes humains, convergeant vers une narrative générique moyenne. Temperature scaling et negative prompting ne réduisent pas cette homogénéité.

Évaluations Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication

Deux études récentes tirent des conclusions contradictoires sur la capacité des LVLMs à coordonner des expressions référentielles efficaces. Cette recherche contrôle les différences de tâches et compare directement les styles de prompting. Les modèles coordonnent efficacement avec un prompting explicite, mais échouent à inférer le besoin d'efficacité communicative avec un prompting implicite.

Prompt engineering Vision Évaluations

SIG

HYP

arXiv cs.CL·17 juin

AIPatient Arena: EHR-grounded evaluation of large language models in end-to-end clinical consultation workflows

AIPatient Arena évalue les LLM en consultation clinique multi-tours sur 8 dimensions via des graphes de connaissances EHR. Sur 437 patients, les modèles excellent en questionnement (4.43-4.99/5) et conduite éthique (4.38-4.93/5), mais échouent en diagnostic (2.63-3.55/5) et couverture informationnelle (2.08-3.02/5). Les faiblesses incluent répétitions, omissions d'antécédents, gestion insuffisante de l'incertitude.

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

Evaluating Second-Order Bias of LLMs Through Epistemic Entitlement

Étude d'un biais de second ordre chez les LLMs : comment les modèles jugent les contenus biaisés, au-delà de leur génération. Basée sur l'épistémologie de l'entitlement, la méthode évalue si les LLMs infèrent correctement les démographies sans justification suffisante. Résultats : biais systématique selon les groupes ciblés, contournement des garde-fous, persistance des déclencheurs démographiques.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·17 juin

Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery

Étude sur le routage d'agents en production : avec 110 agents et 584 outils, la précision F1 chute de 16-23 points sur requêtes sous-spécifiées. L'analyse révèle deux sources : retrieval gap et confusion gap (10pp). Le shortlisting par embeddings récupère +10-11pp F1 à grande échelle.

Agents IA Multi-agents Évaluations

SIG

HYP