arXiv cs.CL·8 juin 2026

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Signal

Hype

En 3 lignesPolyFact, un dataset de 100K questions factuelles multilingues sur Wikidata couvrant 12 langues, évalue trois approches pour améliorer la cohérence factuelle cross-lingue dans Qwen-2.5-7B et OLMo-2-1124-7B. GRPO surpasse le fine-tuning supervisé en réduisant la spécialisation linguistique dans les couches MLP et têtes d'attention, favorisant des représentations cross-lingues partagées.

Lire la source

Ton avis ?

Benchmarks Reinforcement learning Qwen Open source

Résumé généré par Claude — vérifié par l'humain

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Autres angles sur ce sujet