Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback
Signal
78
Hype
15
En 3 lignesÉtude de la « cognitive poisoning » : des outils malveillants qui accumulent la confiance via des retours bénins avant de devenir nuisibles. TRUST-Bench (1,970 épisodes) et VISTA-Guard proposent une défense basée sur le scoring du risque de l'action finale à partir de la trajectoire d'interaction. Les heuristiques classiques échouent ; le scoring conscient de la trajectoire atteint 84,2% en-domaine.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain