OpenAI Blog·5 August 2025

Estimating worst case frontier risks of open weight LLMs

Signal

Hype

In three linesOpenAI studies worst-case frontier risks of releasing open-weight models through malicious fine-tuning (MFT) on gpt-oss. Experiment tests maximum capabilities after adversarial fine-tuning in biology and cybersecurity domains. Risk boundary assessment for open-source LLMs.

Read source

Your take?

OpenAI AI safety Alignment Fine-tuning Open source

Summary generated by Claude — human-verified

Estimating worst case frontier risks of open weight LLMs

Other angles on this story