Retour au feed
arXiv cs.CL·

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Signal
82
Hype
18
En 3 lignesFinAuditing est un benchmark d'audit financier construit sur 1 102 instances XBRL réelles (33k tokens en moyenne). Il évalue 13 LLMs sur trois tâches : appariement sémantique, extraction de relations et raisonnement mathématique. Les résultats révèlent des lacunes significatives en récupération de concepts et raisonnement cross-document.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain