TruthfulQA: Measuring how models mimic human falsehoods
Signal
75
Hype
25
En 3 lignesOpenAI publie TruthfulQA, un benchmark évaluant la capacité des modèles de langage à donner des réponses factuelles plutôt que de reproduire les idées fausses humaines courantes. Le dataset contient des questions piégées conçues pour tester si les modèles imitent les croyances erronées populaires.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain