arXiv cs.AI·22 mai 2026

Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work

Signal

Hype

En 3 lignesDes étudiants construisent QuestBench, un benchmark de 256 questions en sciences humaines et sociales, pour évaluer les systèmes de recherche profonde. Les tests révèlent que GPT-4.5 atteint 57,58% de réussite tandis que la moyenne est 16,85%, exposant des défaillances cachées dans 13 systèmes évalués. Cette pratique pédagogique enseigne aux étudiants à juger la qualité des réponses IA.

Lire la source

Ton avis ?

Benchmarks Évaluations GPT

Résumé généré par Claude — vérifié par l'humain

Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work

Autres angles sur ce sujet