Retour au feed
arXiv cs.AI·

A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

Signal
75
Hype
25
En 3 lignesA2RBench est un pipeline automatisé pour générer des benchmarks de raisonnement abstrait vérifiables formellement. Via vérification programmatique (cycle consistency), il élimine les hallucinations et crée des variations de tâches à grande échelle. Les évaluations montrent que les LLMs actuels obtiennent 39,8% vs 68,5% pour les humains, et peinent sur les tâches 3D complexes.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain