arXiv cs.AI·18 juin 2026

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

Signal

Hype

En 3 lignesDeFAb est un benchmark de 372 648+ instances pour évaluer le raisonnement abductif défaisable dans les modèles de langage. Les meilleurs modèles frontier atteignent 65% en conditions standard mais chutent à 23,5% en évaluation robuste au rendu, contre 100% pour un solveur logique symbolique. Le benchmark inclut trois niveaux de difficulté avec vérification polynomiale des hypothèses.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

Autres angles sur ce sujet