Retour au feed
arXiv cs.CL·

Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning

Signal
75
Hype
25
En 3 lignesAryabhata 2 est un modèle de langage spécialisé en raisonnement STEM entraîné par renforcement sur GPT-OSS-20B. Développé par PhysicsWallah, il surpasse son modèle de base sur les examens JEE/NEET tout en réduisant les tokens de sortie de 64%. Évalué sur AIME, HMMT, MMLU-Pro et GPQA.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarksGénération de code

Résumé généré par Claude — vérifié par l'humain