Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning
Signal
75
Hype
25
En 3 lignesAryabhata 2 est un modèle de langage spécialisé en raisonnement STEM entraîné par renforcement sur GPT-OSS-20B. Développé par PhysicsWallah, il surpasse son modèle de base sur les examens JEE/NEET tout en réduisant les tokens de sortie de 64%. Évalué sur AIME, HMMT, MMLU-Pro et GPQA.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain