arXiv cs.AI·19 mai 2026

CodeScaler: Scaling Code LLM Training and Test-Time Inference via Reward Models

Signal

Hype

En 3 lignesCodeScaler est un modèle de récompense pour l'entraînement et l'inférence de LLM de code. Entraîné sur des données de préférence vérifiées, il surpasse l'RL basé sur l'exécution de +1.55 points sur Qwen3-8B et +4.23 sur Qwen3-14B. À l'inférence, il réduit la latence de 10× tout en maintenant les performances.

Lire la source

Ton avis ?

Génération de code Reinforcement learning Qwen Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

CodeScaler: Scaling Code LLM Training and Test-Time Inference via Reward Models

Autres angles sur ce sujet