Retour au feed
arXiv cs.LG·

Label-Free Reinforcement Learning via Cross-Model Entropy

Signal
78
Hype
25
En 3 lignesCross-Model Entropy (CME) propose un signal de récompense sans labels pour l'entraînement RL des LLM post-training. CME utilise la log-vraisemblance moyenne des réponses sous un modèle vérificateur indépendant, évitant l'auto-cohérence et le reward hacking. Intégré à GRPO, CME atteint 52,5–71,4% de taux de victoire ajustés sur UltraFeedback/AlpacaEval 2.0 sur Qwen, Llama, Gemma, OLMo.
Lire la source
Ton avis ?
Reinforcement learningLlamaQwenRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain