Reddit r/LocalLLaMA·22 mai 2026

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

Signal

Hype

En 3 lignesVector Policy Optimization (VPO) est un algorithme RL qui entraîne les modèles de langage à produire des solutions diversifiées en anticipant plusieurs fonctions de récompense vectorielles. VPO remplace l'estimateur d'avantage GRPO et surpasse les baselines RL scalaires sur quatre tâches, avec des gains croissants à mesure que le budget de recherche augmente.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Génération de code Évaluations

Résumé généré par Claude — vérifié par l'humain

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

Autres angles sur ce sujet