arXiv cs.AI·19 mai 2026

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Signal

Hype

En 3 lignesLes pipelines RL asynchrones pour agents LLM perdent les anciens logits historiques nécessaires à la correction off-policy PPO, entrelançant correction de discordance et correction de staleness. L'article propose trois stratégies d'acquisition (snapshot, modèle dédié, interruption) et une méthode PPO-EWMA approximée pour préserver la sémantique de correction découplée.

Lire la source

Ton avis ?

Agents IA Reinforcement learning Raisonnement

Résumé généré par Claude — vérifié par l'humain

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Autres angles sur ce sujet