English Corpus 1810–2009
1810-2000 年的英文语料库资源,挺适合做语言模型微调或 NLP 相关训练的,词量够大、文本也丰富,每十年都有小说、杂志、报纸和非虚构类图书的均衡样本。
1810 年代到 2009 年的英文文本资源,3.85 亿词、11.5 万篇文本,类型分布还蛮均匀。每十年都有小说、杂志、报纸、非虚构书籍,结构比较稳定,做语料舒服。
格式上没那么复杂,大多是纯文本。起来不用太折腾,直接用Python跑个清洗脚本就能上手。你想训练个词向量、做个关键词提取啥的,丢进去就行,效率还不错。
嗯,年代跨度比较大,从 19 世纪初一直到 21 世纪初。如果你对语言演变感兴趣,比如“报纸里的用词变化”或者“小说里的句式风格”,这个库就挺对味的。
需要注意一点:虽然文本量大,但不是那种现代的网页语料。如果你是做对话模型或者社交平台类语义识别的,还得再配些近期数据。
如果你想了解类似的资源,可以顺便看看这个LOB 语料库,也是经典英文语料,结构比较像,挺适合做对比实验。
建议你把数据预写成模块,比如:
def clean_text(text):
text = text.lower()
text = re.sub(r'[^a-z\s]', '', text)
return text
这样方便复用,也能保证时候数据干净些。
如果你做 NLP 项目,尤其是英文文本,蛮推荐把这个语料拉下来当个基础数据池来用。
下载地址
用户评论