arXiv cs.AI·19 mai 2026

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

Signal

Hype

En 3 lignesPCFJudge, une méthode d'inférence, évalue la factualité en relançant un prompt listwise sur plusieurs ordres de candidats et agrège les scores. Sur RewardBench 2 Factuality, avec K=7 permutations, la précision passe de 86% à 91,33% (GPT-5.4) et 86,33% à 89,67% (Claude Sonnet 4.6).

Lire la source

Ton avis ?

Évaluations GPT Claude Raisonnement

Résumé généré par Claude — vérifié par l'humain

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

Autres angles sur ce sujet