arXiv cs.AI·25 mai 2026

Design and Report Benchmarks for Knowledge Work

Signal

Hype

En 3 lignesArticle arXiv proposant une méthodologie pour concevoir des benchmarks d'IA adaptés au travail de connaissance (coding, recherche, santé). Les auteurs critiquent les évaluations actuelles qui ne reflètent pas les conditions réelles et proposent un cadre en 3 étapes : définir l'activité, spécifier le contexte (outils, rôles, contraintes), scorer le produit final. Analyse de 3 cas : GDPval, OfficeQA Pro, APEX-SWE.

Lire la source

Ton avis ?

Benchmarks Agents IA Génération de code Évaluations

Résumé généré par Claude — vérifié par l'humain

Design and Report Benchmarks for Knowledge Work

Autres angles sur ce sujet