LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction
En 3 lignesLEDGER est un benchmark de 4 999 rapports annuels d'entreprises numérisés pour évaluer les capacités long-contexte des LLM en finance. Le corpus inclut 31 KPIs financiers consolidés, 118 048 questions de retrieval TREC-style, et des tâches d'extraction sur documents denses. Étude de cas : corrélation entre rhétorique CEO et impact marché post-publication.
## LEDGER : Pourquoi ce benchmark financier long-contexte mérite l'attention
### 1. Ce qui existait avant — et pourquoi c'était insuffisant
L'évaluation des LLM sur documents financiers reposait quasi-exclusivement sur les filings SEC 10-K en texte brut, souvent tronqués, accompagnés de quelques dizaines de paires question-réponse. Les benchmarks les plus cités (FinQA, ConvFinQA, TAT-QA) portent sur des extraits isolés de quelques paragraphes, pas sur des documents complets. Résultat : on mesurait la capacité d'un modèle à lire un fragment, pas à naviguer dans un rapport annuel réel de 150-300 pages mêlant tableaux, graphiques, notes de bas de page et prose narrative du CEO.
Avec les fenêtres contextuelles atteignant 128K à 1M tokens (GPT-4o, Gemini 1.5 Pro, Claude 3.5), cette lacune devenait critique : les modèles pouvaient théoriquement ingérer un rapport entier, mais aucun benchmark sérieux ne permettait de vérifier ce qu'ils en faisaient réellement.
### 2. Ce que LEDGER apporte concrètement
**Le corpus** : 4 999 rapports annuels complets — pas des 10-K réglementaires épurés, mais les documents distribués aux actionnaires, avec figures, tableaux et lettres aux actionnaires. Chaque rapport est annoté avec 31 KPIs financiers consolidés (revenus, EBITDA, capex, dette nette, etc.) directement liés à la réaction du marché à la date de publication des résultats.
**Trois niveaux d'évaluation** : - *Retrieval TREC-style* : 118 048 questions en langage naturel avec jugements de pertinence au niveau page. C'est l'ordre de grandeur des grands benchmarks de retrieval généralistes (MSMARCO, BEIR), mais spécialisé sur des documents numériquement denses. - *Needle-in-a-haystack conversationnel* : lookup d'une valeur unique dans un long document — test direct de la précision de l'attention sur contexte étendu. - *Extraction KPI complète* : tâche end-to-end sur documents entiers, avec scoring outillé fourni.
**L'infrastructure** : annotations OCR avec accord inter-annotateurs quantifié, toolchain complète d'extraction/validation/scoring. Ce n'est pas un dataset jetable — c'est un protocole reproductible.
### 3. L'étude de cas rhétorique CEO : signal ou bruit ?
La démonstration la plus originale de LEDGER est la corrélation entre le registre rhétorique des lettres CEO et l'impact marché post-publication. Ce type d'analyse (sentiment de la prose narrative vs. rendement anormal) existait dans la littérature académique en finance comportementale, mais nécessitait des pipelines ad hoc fragiles. LEDGER fournit le substrat pour le faire à l'échelle sur 4 999 documents avec des KPIs de marché déjà alignés temporellement. Pour les équipes quant et les fonds systématiques, c'est un signal alternatif potentiellement exploitable — à condition de contrôler pour la colinéarité avec les KPIs fondamentaux déjà dans le corpus.
### 4. Qui perd, qui gagne
**Perdants potentiels** : les fournisseurs de solutions RAG financières propriétaires qui vendaient leur différenciation sur la qualité de leur parsing de documents complexes. LEDGER fournit désormais un étalon public pour comparer objectivement ces capacités. Les modèles qui performaient bien sur FinQA (extraits courts, arithmétique simple) pourraient se révéler médiocres sur l'extraction KPI long-contexte — exposant des lacunes commercialement gênantes.
**Gagnants** : les équipes de recherche travaillant sur le RAG financier disposent enfin d'un benchmark à la hauteur de la complexité réelle des documents. Les 118 048 questions TREC-style permettent une évaluation statistiquement robuste des systèmes de retrieval (précision, rappel, nDCG) là où les benchmarks précédents avaient des centaines de questions au mieux. Les praticiens MLOps en finance peuvent intégrer LEDGER dans leurs pipelines de régression pour détecter les dégradations de modèle sur des tâches métier réelles.
**Point de vigilance** : le corpus couvre des rapports annuels — documents annuels, pas trimestriels. La couverture sectorielle et temporelle n'est pas encore détaillée dans l'abstract. Si le corpus est biaisé vers les grandes capitalisations américaines ou une période spécifique (pré/post-COVID par exemple), les conclusions sur les performances modèles pourraient ne pas généraliser aux small caps ou aux marchés non-anglophones. La qualité OCR sur les tableaux financiers complexes reste un point dur — l'accord inter-annotateurs fourni sera le premier indicateur à examiner à la lecture du papier complet.
Résumé généré par Claude — vérifié par l'humain