Retour au feed
arXiv cs.CL·

XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks

Signal
72
Hype
18
En 3 lignesXLGoBench est un benchmark de tâches algorithmiques synthétiques pour détecter les lacunes cross-lingues dans les capacités des LLM. Le benchmark est comparable entre langues, scalable (complexité variable), quantifiable (correction objective) et transparent (templates auditables). Les expériences révèlent des lacunes persistantes dans plusieurs modèles état-de-l'art.
Lire la source
Ton avis ?
BenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain