Topic

#Évaluations

Les evals (évaluations) sont des tests standardisés qui mesurent les capacités et limites d'un modèle d'IA sur des tâches précises. OpenAI publie par exemple des evals publics pour comparer ses modèles GPT sur des benchmarks de raisonnement et de codage.

40Articles
6Sources
74Signal moyen
arXiv cs.CL·

Pretraining Language Models on Historical Text

TypewriterLM est un modèle de langage de 7.24B paramètres entraîné exclusivement sur du texte anglais antérieur à 1913. Les auteurs construisent TypewriterCorpus (54B tokens), un corpus historique nettoyé avec procédures anti-fuite, et introduisent lexically grounded instruction tuning pour ancrer les réponses dans des documents historiques. Trois datasets et un benchmark (History-Event) sont publiés.

PapersFine-tuningBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics

Méthode pour prédire les gains de scaling en inférence (best-of-N) sans exécuter la procédure complète. Ridge predictor identifie 3 features stables (accord inter-prompts, position du premier échantillon correct, variance de longueur) + entropie, atteignant ρ=0.90 de corrélation avec les gains réels sur familles de modèles et tâches math/reasoning.

RaisonnementÉvaluationsReinforcement learning
SIG
78
HYP
00
arXiv cs.CL·

The Ghost Annotator: a Framework to Explore Human Label Variation in Content Moderation through Conformal Prediction

Framework combinant prédiction conforme et représentation collaborative pour analyser le comportement des LLM face aux annotateurs humains en modération de contenu. Introduit la métrique Ghost Prediction pour quantifier les divergences modèle-humains. Évaluation sur 4 LLM et 4 datasets révèle que les grands modèles sont plus confiants sur textes sans alignement humain, avec biais démographique structurel.

ÉvaluationsSécurité IAAlignement
SIG
72
HYP
00
arXiv cs.CL·

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.

BenchmarksÉvaluationsRaisonnement
SIG
82
HYP
00
arXiv cs.CL·

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Étude arXiv montrant que les LLM ne déduisent pas bien les caractéristiques socio-démographiques des utilisateurs à partir d'un historique conversationnel unique. Les disparités observées dans les conseils (juridique, médical, financier) sont faibles mais présentes. Les sujets de conversation s'avèrent plus prédictifs que les données socio-démographiques et affectent les réponses de manière imprévisible.

PapersSécurité IAAlignement
SIG
72
HYP
00
arXiv cs.AI·

Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks

Étude de la « dette de passation » : le coût de redécouverte quand un agent de codage reprend une tâche interrompue. Sur 75 tâches et 724 exécutions, fournir des notes structurées réduit les événements médians de 20–59 % et les tokens de 42–63 % vs. état du dépôt seul. Les benchmarks d'agents doivent évaluer l'efficacité de reprise, pas seulement la résolution.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI aligne les représentations structurées des dossiers médicaux électroniques (EHR) avec l'espace sémantique d'un LLM gelé via un resampler task-aware. Le framework multimodal intègre les représentations longitudinales des patients avec des descriptions d'événements cliniques raffinées, améliorant le raisonnement clinique interprétable tout en maintenant la performance prédictive sur le benchmark EHRSHOT.

RAGRaisonnementÉvaluations
SIG
72
HYP
00
arXiv cs.AI·

BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces

BehaviorBench est un benchmark pour évaluer la modélisation des décisions personnalisées à partir de traces comportementales réelles. Construit sur 2 000 portefeuilles avec 141 445 instances de prédiction de croyances et 1 485 972 instances de prédiction de transactions, il teste si les modèles génératifs peuvent adapter leurs prédictions aux utilisateurs individuels sans simulation.

BenchmarksÉvaluationsPapers
SIG
75
HYP
00
Reddit r/LocalLLaMA·

Why do we benchmark quants on perplexity and prose but never on tool call validity?

Un utilisateur de r/LocalLLaMA soulève que les benchmarks de quantification se concentrent sur la perplexité et la qualité prose, mais ignorent la validité des appels d'outils. Il hypothèse que les erreurs de quantification dégradent les sorties structurées (JSON, schémas) plus tôt que le texte libre, rendant les métriques actuelles inadéquates pour les cas d'usage agentiques.

BenchmarksAgents IAÉvaluations
SIG
35
HYP
00
Reddit r/MachineLearning·

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

CVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.

Agents IABenchmarksSécurité IA
SIG
78
HYP
00
arXiv cs.LG·

Large-scale Uncertainty Quantification for Latent Variable Models Using Subsampling Markov Chain Monte Carlo

Théorie asymptotique pour SGLD-Gibbs, combinant dynamique de Langevin stochastique et mises à jour Gibbs pour l'inférence bayésienne dans les modèles à variables latentes. Les auteurs dérivent des limites de diffusion-saut et proposent un guide de tuning d'hyperparamètres garantissant une quantification d'incertitude statistiquement valide.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
00
arXiv cs.CL·

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Système de génération d'humour pour SemEval-2026 Task-1 (MWAHAHA) utilisant une stratégie « générer-beaucoup → sélectionner-meilleur ». Génération de candidats diversifiés via prompting multi-étapes et ensemble de modèles, puis sélection via un modèle de préférence entraîné sur 2.5K jugements humains appariés. Classement 1er en anglais et chinois, 2e en espagnol.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
00
arXiv cs.CL·

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.

Sécurité IAÉvaluationsBenchmarks
SIG
82
HYP
00
arXiv cs.CL·

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

DLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.

PapersFine-tuningRaisonnement
SIG
78
HYP
00
arXiv cs.CL·

Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why

Étude des métriques d'accord pour l'évaluation par LLM-as-Judge. Analyse de 24 papiers récents montrant que pour les critères binaires (MET/UNMET), Pearson r, Spearman ρ, Kendall τ_b et phi sont redondants. Cohen's κ seul ajoute de l'information. Les auteurs proposent une checklist de reporting incluant l'échelle de jugement, la gestion des abstentions et la matrice de confusion.

ÉvaluationsBenchmarksPapers
SIG
78
HYP
00
arXiv cs.CL·

RealityTest: How People Probe AI Identity and Whether Models Disclose It

RealityTest évalue si les systèmes IA divulguent leur identité quand interrogés. Benchmark multilingue et multimodal basé sur 3 152 requêtes collectées auprès de ~750 participants dans 49 pays, 5 langues (texte et voix). Résultats : 31% seulement posent la question directement ; une instruction de suppression réduit la divulgation sous 30% même pour les meilleurs modèles.

Sécurité IAÉvaluationsBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

Model-Based Quality Assessment for Massively Multilingual Parallel Data

Étude de l'évaluation automatique de données bilingues massives : décomposition en deux tâches (évaluation du parallélisme via embeddings multilingues, estimation de qualité sans référence). Benchmark de 4 modèles d'embeddings et 9 évaluateurs sur FLORES-200 couvrant 6 654 paires de langues. Résultat clé : aucun modèle n'est fiable universellement ; une approche direction-aware est nécessaire.

BenchmarksEmbeddingsÉvaluations
SIG
78
HYP
00
arXiv cs.CL·

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Nouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Reinforcement learningAlignementÉvaluations
SIG
72
HYP
00
arXiv cs.AI·

Product-Aware Deep Autoencoders for Robust Process Monitoring in Multi-Product Cyber-Physical Systems

Article académique proposant des autoencodeurs sensibles aux produits pour la détection d'anomalies dans les systèmes cyber-physiques multi-produits. Les modèles globaux traditionnels créent des « angles morts » où les attaques peuvent passer inaperçues. Tests sur Tennessee Eastman Process : le modèle produit-aware détecte 100% des scénarios d'attaque contre 22.2% pour le modèle global.

BenchmarksSécurité IAÉvaluations
SIG
72
HYP
00
arXiv cs.CL·

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

Étude arXiv sur les limites d'adaptation des LLM pour l'annotation. Expériences sur détection de toxicité montrent que 66% des erreurs zero-shot résistent à la correction par prompting (taux de récupération 34.8%). Les modèles suivent des définitions mal alignées sans perdre confiance. La métrique DSF (Definition-Specific Familiarity) corrélée à la performance (r=+0.41) surpasse les métriques de mémorisation.

Prompt engineeringÉvaluationsBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games

Benchmark d'évaluation du raisonnement interactif pour LLM basé sur 474 jeux exécutables. Les modèles reçoivent uniquement les règles, doivent interroger un environnement caché, intégrer observations partielles et décider quand répondre. Évalue robustesse contextuelle, adaptation métacognitive et efficacité d'interaction sur modèles frontier.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

FETCH, un classifier pour le triage juridique automatisé, génère des questions de suivi via un ensemble économique de LLMs. L'étude montre que les modèles bon marché performent bien en classification, mais la génération de questions en langage clair de qualité requiert GPT-4 ou supérieur. Le prompt engineering seul ne suffit pas ; les évaluations LLM-as-judge divergent des évaluations humaines.

GPTOpenAIPrompt engineering
SIG
72
HYP
00
arXiv cs.AI·

SDR: Set-Distance Rewards for Radiology Report Generation

Nouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Reinforcement learningVisionGénération de code
SIG
78
HYP
00
arXiv cs.LG·

Beyond Augmentation: Score-Guided Pathological Prior for EEG-based Depression Detection

Nouvelle approche pour détecter la dépression majeure à partir d'EEG sans augmentation de données. La méthode SGC (Score-Guided Classification) utilise un réseau génératif non supervisé pour modéliser les anomalies pathologiques comme prior, fusionné avec les représentations profondes. Un module d'adaptation spatiale gère l'hétérogénéité des canaux multi-centres. Validation sur Mumtaz2016 et MODMA.

PapersÉvaluationsVision
SIG
72
HYP
00
arXiv cs.LG·

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

Étude de la généralisation retardée (grokking) lors du pré-entraînement de modèles de langage. Via un cadre basé sur l'exposition et les paires minimales BLiMP, les auteurs observent une généralisation différée sur cinq phénomènes grammaticaux. Les vecteurs de concepts grammaticaux deviennent plus prédictifs après généralisation et occupent un sous-espace de dimension supérieure.

PapersRaisonnementÉvaluations
SIG
72
HYP
00
arXiv cs.LG·

FLaG: Fine-Grained Latent Grouping for Hallucination Detection

FLaG est un framework léger de détection d'hallucinations dans les LLM qui modélise la fiabilité via des groupes de preuves latentes. Utilisant un mécanisme de routage basé sur l'énergie et une agrégation log-marginale, il capture des patterns hétérogènes d'hallucinations sans modifier le modèle sous-jacent. Résultats SOTA sur plusieurs benchmarks avec transfert robuste entre datasets.

Sécurité IAÉvaluationsRaisonnement
SIG
78
HYP
00
arXiv cs.LG·

Adversarially Robust Control of Conditional Value-at-Risk via Rockafellar-Uryasev Conformal Inference

Cadre en ligne sans hypothèse distributive pour contrôler la Conditional Value-at-Risk (CVaR) en environnements non-stationnaires et adversariels. Combine inférence conforme, apprentissage en ligne et représentation variationnelle de Rockafellar-Uryasev. Garanties de sécurité prouvées pour risques de queue non-linéaires. Applications : gestion de portefeuille et atténuation de toxicité LLM.

PapersSécurité IARaisonnement
SIG
72
HYP
00
Évaluations — actualité IA · Signal IA