Retour au feed
arXiv cs.AI·

Beyond Execution: Static-Analysis Rewards and Hint-Conditioned Diffusion RL for Code Generation

Signal
78
Hype
15
En 3 lignesÉtude empirique de RL post-training pour la génération de code par diffusion. Les auteurs proposent des récompenses sans exécution (static checking) et un échantillonnage conditionné par hints AST pour contourner le « capability cliff ». Static checking améliore DiffuCoder de 53.9 à 67.1 sur HumanEval et réduit le temps de rollout de 9.4%.
Lire la source
Ton avis ?
Génération de codeReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain