Retour au feed
OpenAI Blog·

TruthfulQA: Measuring how models mimic human falsehoods

Signal
75
Hype
25
En 3 lignesOpenAI publie TruthfulQA, un benchmark évaluant la capacité des modèles de langage à donner des réponses factuelles plutôt que de reproduire les idées fausses humaines courantes. Le dataset contient des questions piégées conçues pour tester si les modèles imitent les croyances erronées populaires.
Lire la source
Ton avis ?
OpenAIBenchmarksÉvaluationsSécurité IAAlignement

Résumé généré par Claude — vérifié par l'humain