Retour au feed
arXiv cs.CL·

Playing with Words, Improving with Rewards: Training Language Models for Creative Association

Signal
75
Hype
25
En 3 lignesEntraînement de modèles Qwen (1.7B, 4B, 8B) sur le jeu Codenames pour améliorer la créativité via reinforcement learning avec récompenses vérifiables (RLVR). Le modèle 8B gagne en créativité (+8/10 benchmarks) avec dégradation mineure du raisonnement, tandis que les petits modèles privilégient la précision. Étude sur le compromis créativité-précision selon l'échelle.
Lire la source
Ton avis ?
QwenReinforcement learningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain