arXiv cs.CL·1 juin 2026

XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks

Signal

Hype

En 3 lignesXLGoBench est un benchmark de tâches algorithmiques synthétiques pour détecter les lacunes cross-lingues dans les capacités des LLM. Le benchmark est comparable entre langues, scalable (complexité variable), quantifiable (correction objective) et transparent (templates auditables). Les expériences révèlent des lacunes persistantes dans plusieurs modèles état-de-l'art.

Lire la source

Ton avis ?

Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks

Autres angles sur ce sujet