arXiv cs.AI·27 mai 2026

Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

Signal

Hype

En 3 lignesÉtude des défaillances des méthodes de gradient de politique dans les problèmes de décision à long horizon avec dommages cumulatifs. Les auteurs identifient deux modes d'échec orthogonaux et proposent une décomposition séparant complétude (atteindre l'horizon terminal) et optimalité (correspondre à la programmation dynamique). Expériences sur carrière de maçon (49 étapes) et carrière NBA (20 saisons).

Lire la source

Ton avis ?

Reinforcement learning Papers Raisonnement

Résumé généré par Claude — vérifié par l'humain

Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

Autres angles sur ce sujet