SEA-Embedding: Open and Reproducible Text Embeddings for Southeast Asia
SEA-Embedding est un pipeline d'embeddings textuels open-source et reproductible pour les langues d'Asie du Sud-Est, entraîné uniquement sur données publiques. L'étude analyse trois facteurs clés : composition des données, objectif d'entraînement et initialisation de l'encodeur. Résultats SOTA sur SEA-BED.