arXiv cs.CL·28 May 2026

Playing with Words, Improving with Rewards: Training Language Models for Creative Association

Signal

Hype

In three linesTraining Qwen models (1.7B, 4B, 8B) on Codenames game to improve creativity via Reinforcement Learning with Verifiable Rewards (RLVR). 8B model gains creativity (+8/10 benchmarks) with minor reasoning degradation, while smaller models prioritize precision. Study on creativity-precision trade-off across model scales.

Read source

Your take?

Qwen Reinforcement learning Reasoning Benchmarks

Summary generated by Claude — human-verified

Playing with Words, Improving with Rewards: Training Language Models for Creative Association

Other angles on this story