Retour au feed
arXiv cs.AI·

Not all uncertainty is alike: volatility, stochasticity, and exploration

Signal
75
Hype
15
En 3 lignesArticle théorique sur l'exploration adaptative en environnements incertains. Distingue volatilité (drift des récompenses) et stochasticité (bruit d'observation) : la première augmente l'exploration optimale, la seconde la réduit. Propose CAUSE, bonus d'exploration en forme fermée via control-as-inference, validé sur bandits gaussiens avec dynamiques latentes.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain