CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations
Signal
72
Hype
18
En 3 lignesCroCo étend le tuning de préférence contrastif sur auto-générations à 14 langues (hautes et basses ressources). Un modèle de récompense entraîné sur préférences anglaises génère des classements utiles multilingues sans annotation spécifique par langue. Gains confirmés sur EuroLLM-9B et Aya-3B avec données on-policy.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain