Retour au feed
arXiv cs.CL·

Evaluation of Chunking Strategies for Effective Text Embedding in Low-Resource Language on Agricultural Documents

Signal
72
Hype
15
En 3 lignesÉtude comparative de quatre stratégies de chunking (Recursive, Khmer-Aware, Sentence-Based, LLM-Based) pour RAG sur documents agricoles en khmer. Le chunking Recursive avec 300 caractères obtient les meilleures performances : L2 distance 0.4295, Answer Relevance 0.8663, Khmer IoU 0.6441. Amélioration statistiquement significative vs Sentence-Based (p=0.0121).
Lire la source
Ton avis ?
RAGEmbeddingsBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain