Vector Policy Optimization: Training for Diversity Improves Test-Time Search
Signal
72
Hype
28
En 3 lignesVector Policy Optimization (VPO) est un algorithme RL qui entraîne les modèles de langage à produire des solutions diversifiées en anticipant plusieurs fonctions de récompense vectorielles. VPO remplace l'estimateur d'avantage GRPO et surpasse les baselines RL scalaires sur quatre tâches, avec des gains croissants à mesure que le budget de recherche augmente.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain