Pretraining Language Models on Historical Text
TypewriterLM est un modèle de langage de 7.24B paramètres entraîné exclusivement sur du texte anglais antérieur à 1913. Les auteurs construisent TypewriterCorpus (54B tokens), un corpus historique nettoyé avec procédures anti-fuite, et introduisent lexically grounded instruction tuning pour ancrer les réponses dans des documents historiques. Trois datasets et un benchmark (History-Event) sont publiés.