Retour au feed
arXiv cs.AI·

Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification

Signal
72
Hype
25
En 3 lignesBenchmark de LLMs sur la classification du traitement des précédents juridiques. Dataset expert-annoté de 239 citations légales réelles. Gemini 2.5 Flash atteint 79,1% en classification haut-niveau, GPT-5-mini 67,7% sur schéma fin-grained. Nouvelle métrique Average Severity Error pour mesurer l'impact pratique des erreurs.
Lire la source
Ton avis ?
BenchmarksGeminiGPTÉvaluations

Résumé généré par Claude — vérifié par l'humain