Retour au feed
arXiv cs.CL·

EmbGen: Teaching with Reassembled Corpora

Signal
72
Hype
18
En 3 lignesEmbGen est un pipeline de génération de données synthétiques qui décompose un corpus en paires entité-description, les réassemble via similarité d'embeddings, puis génère des paires QA avec sampling par proximité et clusters spécialisés. Sur trois datasets, EmbGen améliore la précision binaire de 12,5% (5M tokens) à 88,9% (20M tokens) sur le dataset le plus hétérogène comparé aux baselines.
Lire la source
Ton avis ?
Fine-tuningRAGEmbeddingsBenchmarks

Résumé généré par Claude — vérifié par l'humain