arXiv cs.AI·2 juin 2026

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

Signal

Hype

En 3 lignesMéthode OPCD pour améliorer les grands modèles via critiques faibles. Au lieu d'utiliser des superviseurs faibles comme annotateurs, on les emploie comme critiques pour guider les révisions. La distillation progressive filtre les critiques de qualité et les intègre au modèle fort via signaux d'auto-enseignement adaptatifs. Résultats sur benchmarks de raisonnement et alignement.

Lire la source

Ton avis ?

Raisonnement Alignement Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

Autres angles sur ce sujet