Retour au feed
arXiv cs.LG·

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

Signal
82
Hype
15
En 3 lignesCVT-RL, un algorithme de gradient de politique avec récompenses vérifiables denses, améliore l'apprentissage par renforcement des agents de langage long-horizon. Sur QA, ALFWorld, ScienceWorld et tâches web/outils, le succès passe de 71,8% (RL non-causal) à 78,9%, le F1 des preuves de 78,9 à 82,8, et le hacking mesuré de 7,2% à 3,9%. Les tests statistiques donnent p<0,01 après correction de Holm.
Lire la source
Ton avis ?
Reinforcement learningAgents IARaisonnementÉvaluationsSécurité IA

Résumé généré par Claude — vérifié par l'humain