Cross-Entropy Games and Frost Training
Signal
72
Hype
25
En 3 lignesFrost Training améliore l'optimisation de politique Monte Carlo pour les tâches LLM-as-a-judge appelées Cross-Entropy Games. La méthode exploite le gradient de la fonction de récompense dans l'espace d'embedding, technique inspirée du jailbreaking GCG. Validée avec GRPO, elle augmente la capacité du modèle à générer des sorties haute-score plus rapidement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain