Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work
Signal
72
Hype
25
En 3 lignesDes étudiants construisent QuestBench, un benchmark de 256 questions en sciences humaines et sociales, pour évaluer les systèmes de recherche profonde. Les tests révèlent que GPT-4.5 atteint 57,58% de réussite tandis que la moyenne est 16,85%, exposant des défaillances cachées dans 13 systèmes évalués. Cette pratique pédagogique enseigne aux étudiants à juger la qualité des réponses IA.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain