Retour au feed
arXiv cs.CL·

UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning

Signal
78
Hype
15
En 3 lignesUA-Legal-Bench évalue 11 LLMs (3B–675B) sur 5 tâches de raisonnement juridique ukrainien issues de 99,5 millions de décisions judiciaires. Les résultats montrent des effets few-shot variables : +38,6 pp pour la classification de formulaires, mais effets mixtes sur la prédiction d'issue. L'accuracy masque les biais : le meilleur modèle en accuracy (62%) est un prédicteur de classe majoritaire (macro-F1 : 23%).
Lire la source
Ton avis ?
BenchmarksÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain