Retour au feed
arXiv cs.AI·

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

Signal
82
Hype
15
En 3 lignesDeFAb est un benchmark de 372 648+ instances pour évaluer le raisonnement abductif défaisable dans les modèles de langage. Les meilleurs modèles frontier atteignent 65% en conditions standard mais chutent à 23,5% en évaluation robuste au rendu, contre 100% pour un solveur logique symbolique. Le benchmark inclut trois niveaux de difficulté avec vérification polynomiale des hypothèses.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain