Retour au feed
arXiv cs.CL·

How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines

Signal
75
Hype
15
En 3 lignesÉtude empirique de la reproductibilité comportementale des agents LLM avec tool-calling. Les chercheurs mesurent si un agent sélectionne les mêmes outils, dans le même ordre, avec les mêmes paramètres, lors d'invocations répétées identiques. Focus sur les interfaces structurées avec paramètres typés et effets secondaires.
Lire la source
Ton avis ?
Agents IABenchmarksSécurité IA

Résumé généré par Claude — vérifié par l'humain