arXiv cs.CL·29 mai 2026

Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning

Signal

Hype

En 3 lignesAryabhata 2 est un modèle de langage spécialisé en raisonnement STEM entraîné par renforcement sur GPT-OSS-20B. Développé par PhysicsWallah, il surpasse son modèle de base sur les examens JEE/NEET tout en réduisant les tokens de sortie de 64%. Évalué sur AIME, HMMT, MMLU-Pro et GPQA.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks Génération de code

Résumé généré par Claude — vérifié par l'humain

Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning

Autres angles sur ce sujet