Reddit r/LocalLLaMA·9 June 2026

Newer Qwen models are worse at summarization?

Signal

Hype

In three linesUser reports Qwen 3 (30B) outperforms newer models on summarization tasks evaluated by LLM judge, followed by Gemma 4. Suggests recent Qwen versions may be optimized for agentic tasks rather than synthesis.

Read source

Your take?

Qwen Benchmarks Evals

Summary generated by Claude — human-verified

Newer Qwen models are worse at summarization?

Other angles on this story