arXiv cs.CL·29 mai 2026

UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning

Signal

Hype

En 3 lignesUA-Legal-Bench évalue 11 LLMs (3B–675B) sur 5 tâches de raisonnement juridique ukrainien issues de 99,5 millions de décisions judiciaires. Les résultats montrent des effets few-shot variables : +38,6 pp pour la classification de formulaires, mais effets mixtes sur la prédiction d'issue. L'accuracy masque les biais : le meilleur modèle en accuracy (62%) est un prédicteur de classe majoritaire (macro-F1 : 23%).

Lire la source

Ton avis ?

Benchmarks Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning

Autres angles sur ce sujet