Retour au feed
arXiv cs.AI·

SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents

Signal
78
Hype
15
En 3 lignesSkillGenBench est un benchmark pour évaluer les pipelines de génération de compétences pour agents LLM. Il couvre deux régimes : génération conditionnée par tâche et génération agnostique aux tâches, avec sources procédurales basées sur des dépôts ou documents. Les expériences révèlent une variation substantielle de performance et des modes d'échec distincts.
Lire la source
Ton avis ?
Agents IABenchmarksGénération de codePapers

Résumé généré par Claude — vérifié par l'humain