arXiv cs.AI·19 mai 2026

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

Signal

Hype

En 3 lignesRLBFF combine le feedback humain et les récompenses vérifiables pour l'entraînement de modèles de récompense. La méthode extrait des principes binaires du feedback naturel (ex: exactitude, lisibilité du code) et les utilise comme tâches d'entailment. Les modèles atteindent 86,2% sur RM-Bench et 81,4% sur JudgeBench (#1 septembre 2025). Qwen3-32B aligné avec RLBFF égale o3-mini et DeepSeek R1 à 5% du coût d'inférence.

Lire la source

Ton avis ?

Reinforcement learning Évaluations Alignement Qwen Open source

Résumé généré par Claude — vérifié par l'humain

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

Autres angles sur ce sujet