Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning
Signal
82
Hype
18
En 3 lignesPolyFact, un dataset de 100K questions factuelles multilingues sur Wikidata couvrant 12 langues, évalue trois approches pour améliorer la cohérence factuelle cross-lingue dans Qwen-2.5-7B et OLMo-2-1124-7B. GRPO surpasse le fine-tuning supervisé en réduisant la spécialisation linguistique dans les couches MLP et têtes d'attention, favorisant des représentations cross-lingues partagées.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain