arXiv cs.CL·19 mai 2026

Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification

Signal

Hype

En 3 lignesBenchmark de LLMs sur la classification multi-label du traitement des précédents juridiques. Dataset expert-annoté de 239 citations réelles. Gemini 2.5 Flash atteint 79,1% en classification haut-niveau, GPT-5-mini 67,7% en schéma fin-grained. Nouvelle métrique Average Severity Error pour mesurer l'impact pratique des erreurs.

Lire la source

Ton avis ?

Benchmarks Gemini GPT Évaluations

Résumé généré par Claude — vérifié par l'humain

Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification

Autres angles sur ce sujet