EmbGen: Teaching with Reassembled Corpora
Signal
72
Hype
18
En 3 lignesEmbGen est un pipeline de génération de données synthétiques qui décompose un corpus en paires entité-description, les réassemble via similarité d'embeddings, puis génère des paires QA avec sampling par proximité et clusters spécialisés. Sur trois datasets, EmbGen améliore la précision binaire de 12,5% (5M tokens) à 88,9% (20M tokens) sur le dataset le plus hétérogène comparé aux baselines.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain