Retour au feed
arXiv cs.AI·

MAVEN: Improving Generalization in Agentic Tool Calling

Signal
75
Hype
25
En 3 lignesMAVEN est un système de raisonnement symbolique léger pour améliorer la généralisation des agents LLM dans les tâches d'appel d'outils. Évalué sur BFCL v3, TauBench, Tau2Bench, AceBench et un nouveau benchmark MAVEN-Bench, il augmente la précision de GPT-OSS-120b de 48% à 71% sans entraînement supplémentaire, avec un coût 10× inférieur aux modèles propriétaires.
Lire la source
Ton avis ?
Agents IARaisonnementBenchmarksOutils

Résumé généré par Claude — vérifié par l'humain