Deliberative alignment: reasoning enables safer language models
Signal
75
Hype
25
En 3 lignesOpenAI présente une stratégie d'alignement pour les modèles o1 basée sur l'enseignement direct des spécifications de sécurité et du raisonnement sur ces spécifications. Cette approche « deliberative alignment » exploite les capacités de raisonnement des modèles pour améliorer la sécurité.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain