Retour au feed
arXiv cs.AI·

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

Signal
82
Hype
25
En 3 lignesRLBFF combine le feedback humain et les récompenses vérifiables pour l'entraînement de modèles de récompense. La méthode extrait des principes binaires du feedback naturel (ex: exactitude, lisibilité du code) et les utilise comme tâches d'entailment. Les modèles atteindent 86,2% sur RM-Bench et 81,4% sur JudgeBench (#1 septembre 2025). Qwen3-32B aligné avec RLBFF égale o3-mini et DeepSeek R1 à 5% du coût d'inférence.
Lire la source
Ton avis ?
Reinforcement learningÉvaluationsAlignementQwenOpen source

Résumé généré par Claude — vérifié par l'humain