Imperfect World Models are Exploitable
Étude formelle de l'exploitation de modèles du monde imparfaits en RL. Les auteurs définissent l'exploitation comme une divergence entre les préférences de politique du modèle et de l'environnement réel. Ils prouvent que l'exploitation est essentiellement inévitable sur de grands ensembles de politiques et établissent un lien théorique avec le reward hacking.