When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis
Signal
72
Hype
18
En 3 lignesDes chercheurs proposent une méthode d'audit basée sur le désaccord entre modèles pour évaluer les LLM utilisés par les agences fédérales pour catégoriser les commentaires publics. Sur 1 260 commentaires USDA analysés avec 4 LLM, la divergence thématique inter-modèles dépasse la variation intra-modèle, et les annotateurs humains introduisent des cadres interprétatifs absents de l'ensemble.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain