OpenAI Blog·3 December 2025

How confessions can keep language models honest

Signal

Hype

In three linesOpenAI is testing "confessions," a training method that teaches models to acknowledge mistakes and undesirable behaviors. Goal: improve AI honesty, transparency, and user trust in model outputs.

Read source

Your take?

OpenAI Alignment AI safety

Summary generated by Claude — human-verified

How confessions can keep language models honest

Other angles on this story