Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification
Signal
75
Hype
25
En 3 lignesBenchmark de LLMs sur la classification multi-label du traitement des précédents juridiques. Dataset expert-annoté de 239 citations réelles. Gemini 2.5 Flash atteint 79,1% en classification haut-niveau, GPT-5-mini 67,7% en schéma fin-grained. Nouvelle métrique Average Severity Error pour mesurer l'impact pratique des erreurs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain