Retour au feed
arXiv cs.AI·

Robust Shielding for Safe Reinforcement Learning

Signal
78
Hype
15
En 3 lignesNouvelle approche de shielding pour agents RL garantissant la sécurité formelle dans les MDPs avec dynamiques de transition inconnues. Utilise des MDPs robustes (RMDPs) avec ensembles de probabilités de transition et formules LTL. Combine shielding avec apprentissage PAC pour construire des shields minimalement restrictifs tout en garantissant la sécurité.
Lire la source
Ton avis ?
Reinforcement learningSécurité IARaisonnement

Résumé généré par Claude — vérifié par l'humain