arXiv cs.AI·1 juin 2026

MAVEN: Improving Generalization in Agentic Tool Calling

Signal

Hype

En 3 lignesMAVEN est un système de raisonnement symbolique léger pour améliorer la généralisation des agents LLM dans les tâches d'appel d'outils. Évalué sur BFCL v3, TauBench, Tau2Bench, AceBench et un nouveau benchmark MAVEN-Bench, il augmente la précision de GPT-OSS-120b de 48% à 71% sans entraînement supplémentaire, avec un coût 10× inférieur aux modèles propriétaires.

Lire la source

Ton avis ?

Agents IA Raisonnement Benchmarks Outils

Résumé généré par Claude — vérifié par l'humain

MAVEN: Improving Generalization in Agentic Tool Calling

Autres angles sur ce sujet