TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?
Signal
82
Hype
25
En 3 lignesTeleCom-Bench est un benchmark de 22 678 échantillons évaluant 8 LLMs sur des tâches télécom réelles (reconnaissance d'intention, extraction d'entités, analyse de cause racine, génération de solutions). Les modèles atteignent 90% en tâches linguistiques mais s'effondrent à 30% en exécution procédurale, révélant un « Execution Wall » : les LLMs diagnostiquent bien mais échouent comme ingénieurs terrain.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain