Safe Continual Reinforcement Learning under Nonstationarity via Adaptive Safety Constraints
Signal
72
Hype
18
En 3 lignesLILAC+ propose un cadre pour l'apprentissage par renforcement continu sûr en environnements non-stationnaires. Le système combine trois mécanismes adaptatifs : contraintes de sécurité basées sur le contexte, contraintes de vitesse d'adaptation, et application de budget-à-état. Évalué en simulation de conduite, il réduit les violations de sécurité sous changement de distribution tout en maintenant la performance.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain