Topic

#Évaluations

Les evals (évaluations) sont des tests standardisés qui mesurent les capacités et limites d'un modèle d'IA sur des tâches précises. OpenAI publie par exemple des evals publics pour comparer ses modèles GPT sur des benchmarks de raisonnement et de codage.

40Articles

5Sources

73Signal moyen

arXiv cs.CL·18 juin

Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text

Benchmark d'évaluation de 1 200 documents cliniques avec 9 184 annotations d'incertitude diagnostique. Les LLM préservent mal les expressions d'incertitude (moins de 50% des cas) et confondent les niveaux adjacents. Révèle un défaut non détecté par les métriques standard.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

Étude arXiv testant la capacité des LLM à interpréter la négation dans le langage figuré. Les chercheurs enrichissent un dataset existant et évaluent plusieurs modèles. Résultat : la combinaison négation + figuré pose un défi particulier, avec forte dépendance au style de prompt.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim est un benchmark de prévision basé sur des simulations du jeu Freeciv. Les modèles reçoivent un état de jeu structuré et prédisent des états futurs cachés ; le benchmark continue la simulation pour évaluer les prévisions. Permet des questions à horizons arbitraires, des mondes contrefactuels et des événements rares.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

Étude de l'impact collatéral du machine unlearning sur les LLM. Les auteurs montrent que les dégâts s'étendent au-delà du forget set selon un gradient de distance sémantique, et proposent PreUnlearn, une méthode de prédiction pré-unlearning pour auditer les risques avant exécution.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

Steerable Cultural Preference Optimization of Reward Models

Nouvelle méthode SCPO pour entraîner des reward models capables de représenter équitablement les préférences culturelles de différentes communautés. Gains de 7 points pour les modèles minoritaires sur PRISM et GlobalOpinionQA (7 pays), avec 280% d'efficacité accrue en données d'entraînement.

Alignement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·18 juin

BCL: Bayesian In-Context Learning Framework for Information Extraction

BCL est un framework d'optimisation pour l'extraction d'information utilisant le filtrage particulaire et les mises à jour bayésiennes. Il affine systématiquement les représentations d'étiquettes pour le labeling de séquences et la classification de relations, montrant des améliorations consistantes sur plusieurs échelles de modèles.

Prompt engineering Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

TW-LegalBench: Measuring Taiwanese Legal Understanding

TW-LegalBench évalue 13 LLMs sur le droit taïwanais avec 16 000+ questions à choix multiples, 117 essais ouverts et 14 000+ cas de prédiction judiciaire. Les meilleurs modèles dépassent le seuil de qualification des avocats (11%) mais échouent pour juges/procureurs (1-2%). Les modèles peinent à citer les articles légaux exacts.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

RedactionBench

RedactionBench est un benchmark de 200 documents annotés manuellement couvrant 11 domaines pour évaluer la redaction d'informations personnelles (PII) en contexte. Introduit avec R-Score, une métrique au niveau caractère, il montre que 35 modèles (NER, SLM, frontier models) échouent sur les redactions contextuelles : consensus humain à 89,4% pour redactions obligatoires, 47,7% pour redactions contextuelles.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

Étude sur l'évaluation des rapports radiologiques générés par IA. Les chercheurs montrent que les LLM existants pénalisent excessivement les reformulations inoffensives tout en détectant les erreurs cliniques. Ils entraînent des métriques légères sur Qwen3-8B et MedGemma-4B surpassant des modèles médicaux 32B, avec publication du dataset et de la métrique.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·18 juin

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

ScholarSum propose un cadre hiérarchique basé sur graphes de connaissances pour la résumé abstractif scientifique. Le système organise les documents en unités sémantiques cohérentes, génère un brouillon initial, puis l'affine via un processus itératif de vérification et de réécriture pour assurer cohérence logique et fidélité factuelle.

Papers RAG Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Improving Medical Communication using Rubric-Guided Counterfactual Recommendations

Pipeline de recommandations contrefactuelles guidées par LM pour améliorer la communication médicale en télémédecine textuelle. Le système identifie des features interprétables (ton, personnalisation, clarté, complétude) et recommande des changements minimaux de communication prédits pour augmenter le feedback positif (+6.41% en moyenne). Les modifications préservent le contenu médical et le contrôle du médecin.

Raisonnement Évaluations RAG

SIG

HYP

arXiv cs.CL·18 juin

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

SAGE est un framework d'optimisation stochastique de prompts via exploration guidée par agents multi-agents. Comparaison de trois stratégies : recherche aléatoire informée par erreurs, algorithme génétique, et SAGE avec exécution de code diagnostique. Déploiement sur chatbot santé mentale : 8 cycles d'A/B tests bruyants produisent un gain statistiquement robuste en rétention.

Prompt engineering Agents IA Multi-agents

SIG

HYP

arXiv cs.LG·18 juin

ASTRA: A Scalable Next-Generation ATCO Training Simulator with Autonomous Simpilots

ASTRA est un simulateur de formation pour contrôleurs aériens qui automatise les rôles de pilotes via une pipeline de reconnaissance vocale, interprétation et génération de réponses. Le système réduit le taux d'erreur de reconnaissance vocale de 107,80% à 23,45% sur l'accent singapourien, et évalue les communications radio avec scores de 91,7% (précision), 88,2% (brièveté), 86,9% (complétude).

Voix Fine-tuning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds

Nouvelle mesure de complexité géométrique appelée Fisher width, analogue de la Gaussian width sur les variétés statistiques. Utilise la métrique d'information de Fisher au lieu de la géométrie euclidienne pour capturer la courbure statistique locale. Développe la théorie fondamentale avec bornes de généralisation et estimateurs calculables, validés sur MNIST.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL optimise la cohérence entre les auto-explications et le comportement des modèles de langage via apprentissage par renforcement. Sur un task de raisonnement probabiliste, la méthode améliore la corrélation R² de 0.24 à 0.64. En IA constitutionnelle, elle augmente la prédiction des refus de 36% à 92% et réduit le taux d'échec HarmBench de 15.0% à 0.5%.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·18 juin

P$^2$CE: Model-Agnostic Plausible Pareto-Optimal Counterfactual Explanations

P²CE génère des explications contrefactuelles Pareto-optimales plausibles pour les modèles ML. L'algorithme utilise une forêt d'isolation et les valeurs SHAP pour équilibrer faisabilité, plausibilité et efficacité computationnelle. Évalué sur 3 datasets, il surpasse les méthodes existantes en qualité et vitesse.

Évaluations

SIG

HYP

arXiv cs.LG·18 juin

What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy

Étude sur le grokking (transition retardée de la mémorisation à la généralisation). Les auteurs montrent que la norme des poids ne contrôle pas directement le délai de grokking, mais agit via l'échelle des logits. En fixant la norme et variant la température de sortie, ils retrouvent 85% du délai en ajustant l'échelle logit. L'effet dépend de la fonction de perte (cross-entropy vs MSE).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Searching for Synergy in Shared Workspace Human-AI Collaboration

Étude sur la collaboration humain-IA en espace partagé via Collaborative Gym et DiscoveryBench. Ajouter des collaborateurs améliore les performances seulement avec une structure de coordination. Un scaffolding combinant mémoire partagée et validation humaine (HITL gates) augmente la performance, particulièrement en équipes de trois, en clarifiant les responsabilités.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.AI·18 juin

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb est un benchmark de 372 648+ instances pour évaluer le raisonnement abductif défaisable dans les modèles de langage. Les meilleurs modèles frontier atteignent 65% en conditions standard mais chutent à 23,5% en évaluation robuste au rendu, contre 100% pour un solveur logique symbolique. Le benchmark inclut trois niveaux de difficulté avec vérification polynomiale des hypothèses.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench est un benchmark d'évaluation de la sécurité des LLM dans les workflows AI4Science. Il couvre 7 disciplines, 31 sous-disciplines et 10 dimensions de risque. Les auteurs évaluent des LLM mainstream et orientés science pour diagnostiquer les lacunes de sécurité.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·18 juin

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception propose un cadre d'apprentissage par renforcement progressif pour la détection de tromperie multimodale interprétable. Utilisant des MLLMs, il transforme la classification binaire en processus de raisonnement explicite via Chain of Thought. VAC-GRPO avec curriculum learning stratifié en 4 niveaux de difficulté atteint SOTA sur les benchmarks.

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.AI·18 juin

Analysing drivers and interdependencies in European electricity markets using XAI

Étude combinant réseaux de neurones profonds et XAI (SHAP, SSHAP) pour analyser 39 zones de soumission électriques européennes. Identifie l'énergie solaire comme facteur disproportionné de formation des prix, les prix du gaz comme moteur dominant, et les interconnexions comme révélatrices de l'interdépendance des marchés.

Évaluations Papers

SIG

HYP

arXiv cs.AI·18 juin

TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

TxBench-PP est un benchmark vérifié pour évaluer les agents IA sur la pharmacologie préclinique de petites molécules. 100 évaluations couvrent mécanisme d'action, pharmacodynamique, engagement composé-cible et sécurité. Sur 16 configurations (11 modèles, 4800 trajectoires), Claude Opus 4.8 atteint 59.3% de réussite, GPT-5.5 55.3%. Aucun système ne maîtrise fiablement ces décisions.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.CL·18 juin

Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance

PhysAssistBench est un benchmark d'assistance médecale interactive basé sur 1 296 tours validés par des médecins, construits à partir de cas réels MIMIC-IV. Il évalue la capacité des LLMs à coordonner connaissances cliniques, communication patient et interaction EHR dans un même dialogue. Les expériences montrent que les modèles actuels restent peu fiables dans ce contexte.

Benchmarks Agents IA Multi-agents

SIG

HYP

arXiv cs.CL·18 juin

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

Étude évaluant 42 LLMs (propriétaires et open-source) sur leur capacité à mesurer la discrimination d'items en compréhension de lecture. Les modèles échouent : corrélation de Spearman de 0,152 en prédiction directe, 0,241 en calibration CTT. Les LLMs ne capturent pas fiablement comment les items distinguent les étudiants de niveaux différents.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·18 juin

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT affine la distribution des données d'entraînement SFT via des fonctions d'influence on-policy. La méthode utilise les rollouts du modèle comme cibles de validation pour minimiser l'écart de proximité et corriger le biais de norme de gradient. Tests sur modèles 7B montrent une amélioration du plafond de performance vs baselines.

Fine-tuning Reinforcement learning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Les autoencodeurs creux (SAE) décomposent les activations en features interprétables, mais une étude montre que bloquer une feature « dangereuse » ne supprime pas le comportement : celui-ci peut se rétablir via d'autres chemins résiduels. Même avec intervention active, 95,8% de récupération du comportement est possible en refusal-steering, révélant un écart entre contrôle des features et contrôle comportemental.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Neural Network Implementation of the Renormalization Group for Fault Diagnosis with Class Imbalance

RGNet, une architecture neuronale basée sur le groupe de renormalisation, traite le déséquilibre de classes et le bruit multidimensionnel pour le diagnostic de défauts. Le modèle compresse hiérarchiquement l'espace des features et capture détails locaux et patterns globaux. Tests sur dataset AI4I imbalancé.

Papers Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Measurement noise limits the advantage of nonlinear models over linear models in biomedical prediction

Une étude arXiv montre que sur données biomédicales tabulaires, le bruit de mesure limite l'avantage des modèles non-linéaires (réseaux profonds, gradient boosting) sur la régression linéaire. Les interactions de degré k sont atténuées par la k-ième puissance de la fiabilité des features, tandis que la partie linéaire ne l'est qu'une fois. Analyse de 140 tâches UK Biobank confirmant cette signature du bruit.

Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·18 juin

A Cross-Model VLM-Judge Protocol for Single-Image 3D Mesh Quality (and Why Cheap Proxies Fall Short)

Protocole d'évaluation pour maillages 3D générés à partir d'images uniques utilisant des juges VLM (vision-language models). Les auteurs montrent que les proxies bon marché (similarité CLIP, statistiques de validité géométrique) ne corrèlent pas avec la qualité perçue. Leur protocole VLM avec correction de biais de position atteint Cohen's kappa = 0.66 entre deux familles de juges indépendantes.

Vision Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

The Illusion of Improvement: Reject Inference Strategies in Credit Scoring

Les méthodes de reject inference utilisées en scoring crédit pour corriger le biais de survie masquent un problème structurel : l'accuracy peut s'améliorer tandis que la capacité à rejeter les défaillants s'effondre. Les auteurs proposent une stratégie d'exploration contrôlée (approuver 2-5% des candidats rejetés) pour diagnostiquer cette dégradation sans hypothèses statistiques fortes.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Beyond AHI: An Interpretable Causal-Discovery-Guided Framework for Sleep Recovery in Connected Health

Framework causal pour scorer la récupération du sommeil à partir de polysomnographie multimodale. Utilise DAG learning sur deux cohortes (MESA n=1540, MrOS n=825) pour identifier 5 domaines physiologiques (charge respiratoire, hypoxie, fragmentation, architecture, régulation autonome). Le Sleep Recovery Score (SRS) obtient 2.5× meilleure corrélation avec la récupération perçue que l'AHI classique.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT est un framework agentic-RAG modulaire qui réduit les hallucinations des VLMs via une pipeline fermée à 5 étapes (Extractor, Retriever, Solver, Citation Injector, Verifier). Les réclamations non fondées déclenchent une re-retrieval ciblée. 23 métriques composantes et CaVeScore mesurent la fidélité des citations et l'ancrage multimodal. Résultats : 87,1% accuracy sur ScienceQA, 55,2% sur MMMU.

Vision RAG Agents IA

SIG

HYP

arXiv cs.AI·18 juin

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Xcientist est un système qui externalise la synthèse de recherche et la validation expérimentale des scientifiques IA en processus inspectables et gouvernés par contrats. Il organise les preuves littéraires, états d'idées, plans d'implémentation et traces de réparation comme artefacts persistants, éliminant la dérive de réclamation où les artefacts exécutables ne soutiennent plus le mécanisme initialement revendiqué.

Agents IA Raisonnement Évaluations

SIG

HYP

The Decoder·17 juin

Microsoft researcher builds a working neural network out of goats in Age of Empires II to critique AI science

Un chercheur Microsoft a construit un réseau de neurones fonctionnel avec des chèvres dans l'éditeur de cartes d'Age of Empires II pour critiquer les méthodes de recherche en IA. Son analyse de 315 papiers montre que plus de 50% présupposent déjà que les modèles de langage ont des traits humains avant l'expérience.

Papers Alignement Évaluations

SIG

HYP

Reddit r/MachineLearning·17 juin

Contrastive targeted SFT as a mechinterp method - has anyone mapped causal dependency interactions this way? [D]

Chercheur teste une approche itérative combinant SFT ciblée et interprétabilité mécanique sur un modèle 31B. Stratégie : entraînement contrastif sur des dimensions de capacité spécifiques, puis ablation des circuits pour cartographier les dépendances causales entre dimensions et optimiser l'ordre d'entraînement futur.

Fine-tuning Raisonnement Évaluations

SIG

HYP

The Decoder·17 juin

OpenAI researchers want to predict how often AI models will fail before launch

Des chercheurs d'OpenAI proposent une méthode pour prédire la fréquence des erreurs d'un modèle IA après son lancement. Cette approche comblerait les lacunes des tests de sécurité standards.

OpenAI Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

MultiClin, un benchmark ASR clinique, évalue la robustesse des modèles de reconnaissance vocale face à la variabilité multiscript (plusieurs formes orthographiques valides du même terme). Les métriques conventionnelles sous-estiment les performances. L'unification des scripts améliore significativement les résultats.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.CL·17 juin

From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities

Étude de 4 434 posts et 50 338 commentaires sur Moltbook montrant que les indices de relations parasociales (langage d'intimité, offres de réciprocité, auto-identification) persistent dans les communautés d'agents IA autonomes. Les résultats, validés par keyword matching et annotation LLM, révèlent une association forte entre ces signaux et la ré-engagement de l'auteur original.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.LG·17 juin

Rift: A Conflict Signature for Deception in Language Models

Des chercheurs identifient une signature interne de la tromperie dans les modèles de langage : les réponses mensongères affichent une rang résiduel 2.1-2.3x plus élevé que les réponses naïvement fausses. Cette signature détecte la déception avec 100% de précision sur GPT-2, Qwen2.5 et Phi-3, et transfère zero-shot entre familles de modèles et langues (AUC 0.933-1.0).

Sécurité IA Alignement Évaluations

SIG

HYP