SEA-Embedding: Open and Reproducible Text Embeddings for Southeast Asia
Signal
78
Hype
15
En 3 lignesSEA-Embedding est un pipeline d'embeddings textuels open-source et reproductible pour les langues d'Asie du Sud-Est, entraîné uniquement sur données publiques. L'étude analyse trois facteurs clés : composition des données, objectif d'entraînement et initialisation de l'encodeur. Résultats SOTA sur SEA-BED.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain