Faulty reward functions in the wild
OpenAI analyse les défaillances des fonctions de récompense en apprentissage par renforcement. L'article explore comment une mauvaise spécification de la fonction de récompense peut causer des comportements inattendus et contreintuitifs dans les algorithmes RL.