Retour au feed
arXiv cs.LG·

Provable Joint Decontamination for Benchmarking Multiple Large Language Models

Signal
78
Hype
15
En 3 lignesJECS (Joint Envelope Conformal Selection) est une méthode pour décontaminer les benchmarks d'évaluation LLM en contrôlant le taux de contamination global (GCR) entre plusieurs modèles. Elle agrège les p-valeurs conformales par modèle et applique la procédure Benjamini-Hochberg adaptée pour sélectionner un benchmark fiable sans biais de comparaison croisée.
Lire la source
Ton avis ?
BenchmarksÉvaluationsSécurité IA

Résumé généré par Claude — vérifié par l'humain