1. 首页
  2. 行业
  3. 教育
  4. English Corpus 1810–2009

English Corpus 1810–2009

上传者: 2025-05-28 13:07:02上传 ZIP文件 19.41MB 热度 3次

1810-2000 年的英文语料库资源,挺适合做语言模型微调或 NLP 相关训练的,词量够大、文本也丰富,每十年都有小说、杂志、报纸和非虚构类图书的均衡样本。

1810 年代到 2009 年的英文文本资源,3.85 亿词11.5 万篇文本,类型分布还蛮均匀。每十年都有小说、杂志、报纸、非虚构书籍,结构比较稳定,做语料舒服。

格式上没那么复杂,大多是纯文本。起来不用太折腾,直接用Python跑个清洗脚本就能上手。你想训练个词向量、做个关键词提取啥的,丢进去就行,效率还不错。

嗯,年代跨度比较大,从 19 世纪初一直到 21 世纪初。如果你对语言演变感兴趣,比如“报纸里的用词变化”或者“小说里的句式风格”,这个库就挺对味的。

需要注意一点:虽然文本量大,但不是那种现代的网页语料。如果你是做对话模型或者社交平台类语义识别的,还得再配些近期数据。

如果你想了解类似的资源,可以顺便看看这个LOB 语料库,也是经典英文语料,结构比较像,挺适合做对比实验。

建议你把数据预写成模块,比如:

def clean_text(text):
  text = text.lower()
  text = re.sub(r'[^a-z\s]', '', text)
  return text

这样方便复用,也能保证时候数据干净些。

如果你做 NLP 项目,尤其是英文文本,蛮推荐把这个语料拉下来当个基础数据池来用。

下载地址
用户评论