ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
Signal
82
Hype
18
En 3 lignesProfBench introduit un benchmark de 7000+ paires réponse-critères évaluées par experts (PhD Physique/Chimie, MBA Finance/Consulting). Les meilleurs modèles (GPT-5-high) atteignent 65,9% de performance. Les auteurs proposent des LLM-Judges robustes réduisant les coûts d'évaluation de 2-3 ordres de magnitude.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain