arXiv cs.CL·20 mai 2026

EmbGen: Teaching with Reassembled Corpora

Signal

Hype

En 3 lignesEmbGen est un pipeline de génération de données synthétiques qui décompose un corpus en paires entité-description, les réassemble via similarité d'embeddings, puis génère des paires QA avec sampling par proximité et clusters spécialisés. Sur trois datasets, EmbGen améliore la précision binaire de 12,5% (5M tokens) à 88,9% (20M tokens) sur le dataset le plus hétérogène comparé aux baselines.

Lire la source

Ton avis ?

Fine-tuning RAG Embeddings Benchmarks

Résumé généré par Claude — vérifié par l'humain

EmbGen: Teaching with Reassembled Corpora

Autres angles sur ce sujet