arXiv cs.AI·29 mai 2026

When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis

Signal

Hype

En 3 lignesDes chercheurs proposent une méthode d'audit basée sur le désaccord entre modèles pour évaluer les LLM utilisés par les agences fédérales pour catégoriser les commentaires publics. Sur 1 260 commentaires USDA analysés avec 4 LLM, la divergence thématique inter-modèles dépasse la variation intra-modèle, et les annotateurs humains introduisent des cadres interprétatifs absents de l'ensemble.

Lire la source

Ton avis ?

Évaluations Raisonnement Régulation

Résumé généré par Claude — vérifié par l'humain

When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis

Autres angles sur ce sujet