Design and Report Benchmarks for Knowledge Work
Signal
75
Hype
15
En 3 lignesArticle arXiv proposant une méthodologie pour concevoir des benchmarks d'IA adaptés au travail de connaissance (coding, recherche, santé). Les auteurs critiquent les évaluations actuelles qui ne reflètent pas les conditions réelles et proposent un cadre en 3 étapes : définir l'activité, spécifier le contexte (outils, rôles, contraintes), scorer le produit final. Analyse de 3 cas : GDPval, OfficeQA Pro, APEX-SWE.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain