Beyond Execution: Static-Analysis Rewards and Hint-Conditioned Diffusion RL for Code Generation
Signal
78
Hype
15
En 3 lignesÉtude empirique de RL post-training pour la génération de code par diffusion. Les auteurs proposent des récompenses sans exécution (static checking) et un échantillonnage conditionné par hints AST pour contourner le « capability cliff ». Static checking améliore DiffuCoder de 53.9 à 67.1 sur HumanEval et réduit le temps de rollout de 9.4%.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain