arXiv cs.LG·5 juin 2026

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

Signal

Hype

En 3 lignesCVT-RL, un algorithme de gradient de politique avec récompenses vérifiables denses, améliore l'apprentissage par renforcement des agents de langage long-horizon. Sur QA, ALFWorld, ScienceWorld et tâches web/outils, le succès passe de 71,8% (RL non-causal) à 78,9%, le F1 des preuves de 78,9 à 82,8, et le hacking mesuré de 7,2% à 3,9%. Les tests statistiques donnent p<0,01 après correction de Holm.

Lire la source

Ton avis ?

Reinforcement learning Agents IA Raisonnement Évaluations Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

Autres angles sur ce sujet