arXiv cs.CL·28 mai 2026

Playing with Words, Improving with Rewards: Training Language Models for Creative Association

Signal

Hype

En 3 lignesEntraînement de modèles Qwen (1.7B, 4B, 8B) sur le jeu Codenames pour améliorer la créativité via reinforcement learning avec récompenses vérifiables (RLVR). Le modèle 8B gagne en créativité (+8/10 benchmarks) avec dégradation mineure du raisonnement, tandis que les petits modèles privilégient la précision. Étude sur le compromis créativité-précision selon l'échelle.

Lire la source

Ton avis ?

Qwen Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Playing with Words, Improving with Rewards: Training Language Models for Creative Association

Autres angles sur ce sujet