Retour au feed
OpenAI Blog·

Learning from human preferences

Signal
75
Hype
25
En 3 lignesOpenAI et DeepMind développent un algorithme d'apprentissage par préférences humaines pour inférer les objectifs sans écrire explicitement de fonctions de récompense, réduisant les risques de comportements indésirables.
Lire la source
Ton avis ?
OpenAIDeepMindReinforcement learningAlignementSécurité IA

Résumé généré par Claude — vérifié par l'humain