arXiv cs.CL·21 mai 2026

Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task

Signal

Hype

En 3 lignesPipeline deux étapes pour captionner des images culturelles en langues autochtones : Qwen2.5-VL génère une caption intermédiaire en espagnol, puis Gemini 2.5 Flash produit la caption cible via retrieval-augmented prompting. Amélioration de 164,1% (Bribri), 131,7% (Guaraní), 122,6% (Nahuatl Orizaba) sur la baseline. Gagnant du shared task AmericasNLP 2026.

Lire la source

Ton avis ?

Vision RAG Gemini Qwen Benchmarks

Résumé généré par Claude — vérifié par l'humain

Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task

Autres angles sur ce sujet