arXiv cs.CL·21 mai 2026

When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation

Signal

Hype

En 3 lignesÉtude sur la génération de critiques littéraires long-format basées sur le Torrance Test of Creative Writing (TTCW). Construction d'un dataset de 263 911 histoires annotées selon 14 dimensions créatives. Fine-tuning de Qwen3 (4B et 8B) montre que l'absence de supervision par raisonnement produit de meilleures performances (0.6820), les modèles supervisés échouant à générer les 14 métriques requises.

Lire la source

Ton avis ?

Qwen Fine-tuning Raisonnement Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation

Autres angles sur ce sujet