arXiv cs.AI·2 juin 2026

Robust Shielding for Safe Reinforcement Learning

Signal

Hype

En 3 lignesNouvelle approche de shielding pour agents RL garantissant la sécurité formelle dans les MDPs avec dynamiques de transition inconnues. Utilise des MDPs robustes (RMDPs) avec ensembles de probabilités de transition et formules LTL. Combine shielding avec apprentissage PAC pour construire des shields minimalement restrictifs tout en garantissant la sécurité.

Lire la source

Ton avis ?

Reinforcement learning Sécurité IA Raisonnement

Résumé généré par Claude — vérifié par l'humain

Robust Shielding for Safe Reinforcement Learning

Autres angles sur ce sujet