Robust Shielding for Safe Reinforcement Learning
Nouvelle approche de shielding pour agents RL garantissant la sécurité formelle dans les MDPs avec dynamiques de transition inconnues. Utilise des MDPs robustes (RMDPs) avec ensembles de probabilités de transition et formules LTL. Combine shielding avec apprentissage PAC pour construire des shields minimalement restrictifs tout en garantissant la sécurité.