RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator
Signal
78
Hype
15
En 3 lignesRankJudge est un générateur de benchmark pour évaluer les LLM utilisés comme juges sur des conversations multi-tours ancrées dans des documents de référence. Le système crée des paires de conversations avec une faille injectée dans un tour, permettant un étiquetage sans ambiguïté. Évaluation de 21 juges LLM frontier avec classement via le modèle Bradley-Terry sur ML, biomédecine et finance.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain