Retour au feed
arXiv cs.CL·

Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification

Signal
75
Hype
25
En 3 lignesBenchmark de LLMs sur la classification multi-label du traitement des précédents juridiques. Dataset expert-annoté de 239 citations réelles. Gemini 2.5 Flash atteint 79,1% en classification haut-niveau, GPT-5-mini 67,7% en schéma fin-grained. Nouvelle métrique Average Severity Error pour mesurer l'impact pratique des erreurs.
Lire la source
Ton avis ?
BenchmarksGeminiGPTÉvaluations

Résumé généré par Claude — vérifié par l'humain