CodeScaler: Scaling Code LLM Training and Test-Time Inference via Reward Models
Signal
78
Hype
25
En 3 lignesCodeScaler est un modèle de récompense pour l'entraînement et l'inférence de LLM de code. Entraîné sur des données de préférence vérifiées, il surpasse l'RL basé sur l'exécution de +1.55 points sur Qwen3-8B et +4.23 sur Qwen3-14B. À l'inférence, il réduit la latence de 10× tout en maintenant les performances.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain