arXiv cs.AI·19 mai 2026

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

Signal

Hype

En 3 lignesSynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B.

Lire la source

Ton avis ?

Reinforcement learning Benchmarks Open source

Résumé généré par Claude — vérifié par l'humain

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

Autres angles sur ce sujet