Retour au feed
arXiv cs.AI·

Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles

Signal
72
Hype
18
En 3 lignesWIRE est un pipeline d'évaluation qui diagnostique les conflits de règles au sein d'une même politique de prompt LLM. Sur 6 politiques publiques, l'outil extrait 276 règles et identifie 170 paires de règles en collision dure. Seulement 35,4% des cas testés respectent les deux règles simultanément ; 64,6% violent au moins une règle source.
Lire la source
Ton avis ?
Agents IAPrompt engineeringÉvaluationsSécurité IA

Résumé généré par Claude — vérifié par l'humain