OpenAI Blog·8 septembre 2021

TruthfulQA: Measuring how models mimic human falsehoods

Signal

Hype

En 3 lignesOpenAI publie TruthfulQA, un benchmark évaluant la capacité des modèles de langage à donner des réponses factuelles plutôt que de reproduire les idées fausses humaines courantes. Le dataset contient des questions piégées conçues pour tester si les modèles imitent les croyances erronées populaires.

Lire la source

Ton avis ?

OpenAI Benchmarks Évaluations Sécurité IA Alignement

Résumé généré par Claude — vérifié par l'humain

TruthfulQA: Measuring how models mimic human falsehoods

Autres angles sur ce sujet