arXiv cs.CL·19 mai 2026

Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization

Signal

Hype

En 3 lignesMéthode d'adaptation de vocabulaire parameter-efficient pour améliorer la tokenization des LLM sur domaines spécialisés (légal, médical). Testée sur Llama-3.1-8B et Qwen2.5-7B : réduit le temps d'entraînement de 35-55% vs continual pretraining, diminue les paramètres de 37% vs expansion-only, améliore la qualité des résumés via tokens domain-spécifiques.

Lire la source

Ton avis ?

Fine-tuning Llama Qwen Benchmarks Open source

Résumé généré par Claude — vérifié par l'humain

Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization

Autres angles sur ce sujet