Retour au feed
arXiv cs.LG·

Safe Continual Reinforcement Learning under Nonstationarity via Adaptive Safety Constraints

Signal
72
Hype
18
En 3 lignesLILAC+ propose un cadre pour l'apprentissage par renforcement continu sûr en environnements non-stationnaires. Le système combine trois mécanismes adaptatifs : contraintes de sécurité basées sur le contexte, contraintes de vitesse d'adaptation, et application de budget-à-état. Évalué en simulation de conduite, il réduit les violations de sécurité sous changement de distribution tout en maintenant la performance.
Lire la source
Ton avis ?
Reinforcement learningSécurité IAAlignement

Résumé généré par Claude — vérifié par l'humain