Retour au feed
arXiv cs.CL·

Pretraining Language Models on Historical Text

Signal
78
Hype
15
En 3 lignesTypewriterLM est un modèle de langage de 7.24B paramètres entraîné exclusivement sur du texte anglais antérieur à 1913. Les auteurs construisent TypewriterCorpus (54B tokens), un corpus historique nettoyé avec procédures anti-fuite, et introduisent lexically grounded instruction tuning pour ancrer les réponses dans des documents historiques. Trois datasets et un benchmark (History-Event) sont publiés.
Lire la source
Ton avis ?
PapersFine-tuningBenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain