arXiv cs.CL·28 mai 2026

Disentangling Language Roles in Multilingual LLM Task Execution

Signal

Hype

En 3 lignesMTM-Bench, un benchmark contrôlé pour l'exécution de tâches multilingues, évalue 20 LLMs sur 27 combinaisons de langues (instruction/contenu/réponse) en anglais, espagnol et chinois. Les résultats montrent que la dégradation dépend du rôle de la langue dans la structure de la tâche, la langue de réponse étant l'axe dominant de variation.

Lire la source

Ton avis ?

Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

Disentangling Language Roles in Multilingual LLM Task Execution

Autres angles sur ce sujet