arXiv cs.AI·19 mai 2026

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

Signal

Hype

En 3 lignesProfBench introduit un benchmark de 7000+ paires réponse-critères évaluées par experts (PhD Physique/Chimie, MBA Finance/Consulting). Les meilleurs modèles (GPT-5-high) atteignent 65,9% de performance. Les auteurs proposent des LLM-Judges robustes réduisant les coûts d'évaluation de 2-3 ordres de magnitude.

Lire la source

Ton avis ?

Benchmarks Évaluations GPT

Résumé généré par Claude — vérifié par l'humain

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

Autres angles sur ce sujet