Reddit r/LocalLLaMA·9 juin 2026

Newer Qwen models are worse at summarization?

Signal

Hype

En 3 lignesUn utilisateur rapporte que Qwen 3 (30B) surpasse les modèles récents sur des tâches de résumé évalués par un juge LLM, suivi de Gemma 4. Il suggère que les versions plus récentes de Qwen seraient optimisées pour les tâches agentic plutôt que la synthèse.

Lire la source

Ton avis ?

Qwen Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

Newer Qwen models are worse at summarization?

Autres angles sur ce sujet