How we monitor internal coding agents for misalignment
OpenAI décrit sa méthode de monitoring des agents de code internes via chain-of-thought pour détecter les désalignements. L'approche analyse les déploiements réels et renforce les garde-fous de sécurité IA.
Chronologie
- 19 mars 10:00OpenAI BlogHow we monitor internal coding agents for misalignment
OpenAI décrit sa méthode de monitoring des agents de codage internes via chain-of-thought pour détecter les désalignements. L'analyse porte sur les déploiements réels afin d'identifier les risques et renforcer les garde-fous de sécurité IA.
SIG 72