arXiv cs.AI·19 mai 2026

TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?

Signal

Hype

En 3 lignesTeleCom-Bench est un benchmark de 22 678 échantillons évaluant 8 LLMs sur des tâches télécom réelles (reconnaissance d'intention, extraction d'entités, analyse de cause racine, génération de solutions). Les modèles atteignent 90% en tâches linguistiques mais s'effondrent à 30% en exécution procédurale, révélant un « Execution Wall » : les LLMs diagnostiquent bien mais échouent comme ingénieurs terrain.

Lire la source

Ton avis ?

Benchmarks Raisonnement Agents IA Évaluations

Résumé généré par Claude — vérifié par l'humain

TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?

Autres angles sur ce sujet