arXiv cs.LG·29 mai 2026

Label-Free Reinforcement Learning via Cross-Model Entropy

Signal

Hype

En 3 lignesCross-Model Entropy (CME) propose un signal de récompense sans labels pour l'entraînement RL des LLM post-training. CME utilise la log-vraisemblance moyenne des réponses sous un modèle vérificateur indépendant, évitant l'auto-cohérence et le reward hacking. Intégré à GRPO, CME atteint 52,5–71,4% de taux de victoire ajustés sur UltraFeedback/AlpacaEval 2.0 sur Qwen, Llama, Gemma, OLMo.

Lire la source

Ton avis ?

Reinforcement learning Llama Qwen Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

Label-Free Reinforcement Learning via Cross-Model Entropy

Autres angles sur ce sujet