DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
Signal
82
Hype
15
En 3 lignesDeFAb est un benchmark de 372 648+ instances pour évaluer le raisonnement abductif défaisable dans les modèles de langage. Les meilleurs modèles frontier atteignent 65% en conditions standard mais chutent à 23,5% en évaluation robuste au rendu, contre 100% pour un solveur logique symbolique. Le benchmark inclut trois niveaux de difficulté avec vérification polynomiale des hypothèses.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain