Learning from human preferences
Signal
75
Hype
25
En 3 lignesOpenAI et DeepMind développent un algorithme d'apprentissage par préférences humaines pour inférer les objectifs sans écrire explicitement de fonctions de récompense, réduisant les risques de comportements indésirables.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain