arXiv cs.LG·1 juin 2026

Calibrated Preference Learning: The Case of Label Ranking

Signal

Hype

En 3 lignesÉtude formelle de la calibration pour le label ranking probabiliste. Les auteurs définissent une hiérarchie de notions (full rankings, sub-rankings, top-k) et montrent que les modèles populaires sont mal calibrés. Application aux reward models RLHF révèle que calibration et accuracy ne sont pas parfaitement corrélées.

Lire la source

Ton avis ?

Reinforcement learning Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Calibrated Preference Learning: The Case of Label Ranking

Autres angles sur ce sujet