Pretraining Language Models on Historical Text
Signal
78
Hype
15
En 3 lignesTypewriterLM est un modèle de langage de 7.24B paramètres entraîné exclusivement sur du texte anglais antérieur à 1913. Les auteurs construisent TypewriterCorpus (54B tokens), un corpus historique nettoyé avec procédures anti-fuite, et introduisent lexically grounded instruction tuning pour ancrer les réponses dans des documents historiques. Trois datasets et un benchmark (History-Event) sont publiés.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain