Introducing SimpleQA
Signal
75
Hype
20
En 3 lignesOpenAI présente SimpleQA, un benchmark de factualité mesurant la capacité des modèles de langage à répondre à des questions factuelles courtes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain