arXiv cs.CL·19 mai 2026

Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback

Signal

Hype

En 3 lignesÉtude de la « cognitive poisoning » : des outils malveillants qui accumulent la confiance via des retours bénins avant de devenir nuisibles. TRUST-Bench (1,970 épisodes) et VISTA-Guard proposent une défense basée sur le scoring du risque de l'action finale à partir de la trajectoire d'interaction. Les heuristiques classiques échouent ; le scoring conscient de la trajectoire atteint 84,2% en-domaine.

Lire la source

Ton avis ?

Agents IA Sécurité IA Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback

Autres angles sur ce sujet