Retour au feed
arXiv cs.CL·

Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task

Signal
78
Hype
25
En 3 lignesPipeline deux étapes pour captionner des images culturelles en langues autochtones : Qwen2.5-VL génère une caption intermédiaire en espagnol, puis Gemini 2.5 Flash produit la caption cible via retrieval-augmented prompting. Amélioration de 164,1% (Bribri), 131,7% (Guaraní), 122,6% (Nahuatl Orizaba) sur la baseline. Gagnant du shared task AmericasNLP 2026.
Lire la source
Ton avis ?
VisionRAGGeminiQwenBenchmarks

Résumé généré par Claude — vérifié par l'humain