arXiv cs.AI·3 June 2026

A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting

Signal

Hype

In three linesStudy on activation transfer between language models (Pythia-160M to Pythia-410M). A linear translation layer strongly aligns hidden states (cosine similarity 0.97), but injecting translated activations does not improve downstream performance at inference time. Negative result: offline representational alignment is insufficient for useful causal communication.

Read source

Your take?

Reasoning Papers Evals

Summary generated by Claude — human-verified

A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting

Other angles on this story