A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation
Signal
75
Hype
25
En 3 lignesA2RBench est un pipeline automatisé pour générer des benchmarks de raisonnement abstrait vérifiables formellement. Via vérification programmatique (cycle consistency), il élimine les hallucinations et crée des variations de tâches à grande échelle. Les évaluations montrent que les LLMs actuels obtiennent 39,8% vs 68,5% pour les humains, et peinent sur les tâches 3D complexes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain