Retour au feed
arXiv cs.AI·

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

Signal
72
Hype
28
En 3 lignesQQJ est un framework d'évaluation pour l'IA générative qui combine rubrics multi-dimensionnels conçus par experts et calibrage d'LLM évaluateurs sur un petit ensemble d'annotations de haute qualité. Testé sur génération de texte et images, QQJ montre meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles et les évaluateurs LLM non structurés.
Lire la source
Ton avis ?
ÉvaluationsBenchmarksAlignementVisionGénération de code

Résumé généré par Claude — vérifié par l'humain