arXiv cs.CL·20 mai 2026

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

Signal

Hype

En 3 lignesGoLongRL propose une recette post-training open-source pour l'apprentissage par renforcement en contexte long avec récompenses vérifiables. Les auteurs publient un dataset de 23K samples RLVR couvrant 9 types de tâches, et introduisent TMN-Reweight pour optimiser les récompenses hétérogènes. Qwen3-30B-A3B atteint des performances comparables à DeepSeek-R1 et Qwen3-235B.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks Open source Qwen

Résumé généré par Claude — vérifié par l'humain

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

Autres angles sur ce sujet