OpenAI Blog·13 juin 2017

Learning from human preferences

Signal

Hype

En 3 lignesOpenAI et DeepMind développent un algorithme d'apprentissage par préférences humaines pour inférer les objectifs sans écrire explicitement de fonctions de récompense, réduisant les risques de comportements indésirables.

Lire la source

Ton avis ?

OpenAI DeepMind Reinforcement learning Alignement Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Learning from human preferences

Autres angles sur ce sujet