Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems
Signal
72
Hype
15
En 3 lignesÉtude des défaillances des méthodes de gradient de politique dans les problèmes de décision à long horizon avec dommages cumulatifs. Les auteurs identifient deux modes d'échec orthogonaux et proposent une décomposition séparant complétude (atteindre l'horizon terminal) et optimalité (correspondre à la programmation dynamique). Expériences sur carrière de maçon (49 étapes) et carrière NBA (20 saisons).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain