Retour au feed
arXiv cs.LG·

From Cumulative Constraints to Adaptive Runtime Safety Control for Nonstationary Reinforcement Learning

Signal
72
Hype
18
En 3 lignesCPSS (Constraint Projection Safety Shield) convertit les budgets de sécurité cumulatifs en seuils de contrôle adaptatifs au niveau des états pour l'apprentissage par renforcement non-stationnaire. Le mécanisme ajuste dynamiquement les contraintes de risque selon le contexte, garantit la satisfaction des seuils par état et réduit les violations de sécurité dans des scénarios de fusion autoroutière.
Lire la source
Ton avis ?
Reinforcement learningSécurité IARaisonnement

Résumé généré par Claude — vérifié par l'humain