arXiv cs.AI·28 mai 2026

Cross-Entropy Games and Frost Training

Signal

Hype

En 3 lignesFrost Training améliore l'optimisation de politique Monte Carlo pour les tâches LLM-as-a-judge appelées Cross-Entropy Games. La méthode exploite le gradient de la fonction de récompense dans l'espace d'embedding, technique inspirée du jailbreaking GCG. Validée avec GRPO, elle augmente la capacité du modèle à générer des sorties haute-score plus rapidement.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Évaluations Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Cross-Entropy Games and Frost Training

Autres angles sur ce sujet