Generating Pretraining Tokens from Organic Data for Data-Bound Scaling
SynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B.