Retour au feed
arXiv cs.AI·

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

Signal
82
Hype
18
En 3 lignesProfBench introduit un benchmark de 7000+ paires réponse-critères évaluées par experts (PhD Physique/Chimie, MBA Finance/Consulting). Les meilleurs modèles (GPT-5-high) atteignent 65,9% de performance. Les auteurs proposent des LLM-Judges robustes réduisant les coûts d'évaluation de 2-3 ordres de magnitude.
Lire la source
Ton avis ?
BenchmarksÉvaluationsGPT

Résumé généré par Claude — vérifié par l'humain