arXiv cs.AI·28 mai 2026

Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles

Signal

Hype

En 3 lignesWIRE est un pipeline d'évaluation qui diagnostique les conflits de règles au sein d'une même politique de prompt LLM. Sur 6 politiques publiques, l'outil extrait 276 règles et identifie 170 paires de règles en collision dure. Seulement 35,4% des cas testés respectent les deux règles simultanément ; 64,6% violent au moins une règle source.

Lire la source

Ton avis ?

Agents IA Prompt engineering Évaluations Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles

Autres angles sur ce sujet