Retour au feed
arXiv cs.CL·

Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback

Signal
78
Hype
15
En 3 lignesÉtude de la « cognitive poisoning » : des outils malveillants qui accumulent la confiance via des retours bénins avant de devenir nuisibles. TRUST-Bench (1,970 épisodes) et VISTA-Guard proposent une défense basée sur le scoring du risque de l'action finale à partir de la trajectoire d'interaction. Les heuristiques classiques échouent ; le scoring conscient de la trajectoire atteint 84,2% en-domaine.
Lire la source
Ton avis ?
Agents IASécurité IABenchmarksPapers

Résumé généré par Claude — vérifié par l'humain