Retour au feed
arXiv cs.AI·

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

Signal
72
Hype
18
En 3 lignesPCFJudge, une méthode d'inférence, évalue la factualité en relançant un prompt listwise sur plusieurs ordres de candidats et agrège les scores. Sur RewardBench 2 Factuality, avec K=7 permutations, la précision passe de 86% à 91,33% (GPT-5.4) et 86,33% à 89,67% (Claude Sonnet 4.6).
Lire la source
Ton avis ?
ÉvaluationsGPTClaudeRaisonnement

Résumé généré par Claude — vérifié par l'humain