OpenAI Blog·9 May 2023

Language models can explain neurons in language models

Signal

Hype

In three linesOpenAI uses GPT-4 to automatically generate explanations for neuron behavior in large language models and score those explanations. A dataset of these explanations and scores for every neuron in GPT-2 is released.

Read source

Your take?

OpenAI GPT Evals

Summary generated by Claude — human-verified

Language models can explain neurons in language models

Other angles on this story