CodeAlchemy: Synthetic Code Rewriting at Scale
Signal
82
Hype
25
En 3 lignesCodeAlchemy génère 500B+ tokens de données synthétiques via 5 stratégies (CodeEnhance, CodeQA, CodeDev, CodeDialogue, CodeTrace) à partir de code public dans 15 langues. CodeTrace instrumente 1.3M+ fichiers pour capturer flux de contrôle et connaissance de bibliothèques. Les modèles 3B surpassent des modèles 10x plus grands (Gemma-3 27B, Granite-4.0 32B) : 83.5% HumanEval, 63.2% MBPP.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain