Retour au feed
arXiv cs.CL·

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

Signal
78
Hype
25
En 3 lignesGoLongRL propose une recette post-training open-source pour l'apprentissage par renforcement en contexte long avec récompenses vérifiables. Les auteurs publient un dataset de 23K samples RLVR couvrant 9 types de tâches, et introduisent TMN-Reweight pour optimiser les récompenses hétérogènes. Qwen3-30B-A3B atteint des performances comparables à DeepSeek-R1 et Qwen3-235B.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarksOpen sourceQwen

Résumé généré par Claude — vérifié par l'humain