Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction
Signal
72
Hype
15
En 3 lignesLes pipelines RL asynchrones pour agents LLM perdent les anciens logits historiques nécessaires à la correction off-policy PPO, entrelançant correction de discordance et correction de staleness. L'article propose trois stratégies d'acquisition (snapshot, modèle dédié, interruption) et une méthode PPO-EWMA approximée pour préserver la sémantique de correction découplée.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain