English Corpus 1810–2009

上传者：socialize_13839 2025-05-28 13:07:02上传 ZIP文件 19.41MB 热度 6次

1810-2000 年的英文语料库资源，挺适合做语言模型微调或 NLP 相关训练的，词量够大、文本也丰富，每十年都有小说、杂志、报纸和非虚构类图书的均衡样本。

1810 年代到 2009 年的英文文本资源，3.85 亿词、11.5 万篇文本，类型分布还蛮均匀。每十年都有小说、杂志、报纸、非虚构书籍，结构比较稳定，做语料舒服。

格式上没那么复杂，大多是纯文本。起来不用太折腾，直接用Python跑个清洗脚本就能上手。你想训练个词向量、做个关键词提取啥的，丢进去就行，效率还不错。

嗯，年代跨度比较大，从 19 世纪初一直到 21 世纪初。如果你对语言演变感兴趣，比如“报纸里的用词变化”或者“小说里的句式风格”，这个库就挺对味的。

需要注意一点：虽然文本量大，但不是那种现代的网页语料。如果你是做对话模型或者社交平台类语义识别的，还得再配些近期数据。

如果你想了解类似的资源，可以顺便看看这个LOB 语料库，也是经典英文语料，结构比较像，挺适合做对比实验。

建议你把数据预写成模块，比如：

def clean_text(text):
  text = text.lower()
  text = re.sub(r'[^a-z\s]', '', text)
  return text

这样方便复用，也能保证时候数据干净些。

如果你做 NLP 项目，尤其是英文文本，蛮推荐把这个语料拉下来当个基础数据池来用。

下载地址

用户评论

更多下载

下载地址

立即下载

用户评论

English Corpus 1810–2009

1810-2000 年的英文语料库资源，挺适合做语言模型微调或 NLP 相关训练的，词量够大、文本也...

大小：19.41MB | 2025-05-28 13:07:02
English Corpus

English Corpus Linguistics An Introduction - Charl...

大小：2.58MB | 2020-07-25 15:33:20
Corpus linguistics and English reference grammars

Thepresentpaperbeginswithadiscussionofmajorconcept...

大小：0B | 2020-01-03 15:32:27
corpus instruction

wellillustratedandhelpful

大小：0B | 2019-08-02 00:16:37
statistics for corpus linguistics

大小：0B | 2019-01-02 07:31:23
Sogou_Corpus

一个简单的新闻语料库，包含5个类别，每个类别500篇文档。

大小：0B | 2018-12-21 00:04:10
corpus.rar

事件抽取事件关系抽取数据集包含部分ACE 2005 Multilingual Training...

大小：3.49MB | 2020-08-14 00:46:28
aspectj1810

大小：0B | 2019-03-08 22:20:01
UltraEdit1810

大小：0B | 2019-01-16 05:25:47
VisualAssistX1810

大小：0B | 2019-01-14 17:58:56
anuvaad parallel corpus源码

阿努瓦德平行语料库该库包含与开发的流行印度语言的并行语言语料库链接。请联系了解链接数据集的任何说...

大小：3KB | 2021-04-17 21:59:01
handle_corpus.py

txt格式的文本摘要语料:CNN/daily mail。抽取其中的摘要和短文,当一个短文对应多个摘要...

大小：5KB | 2020-08-13 00:36:20
The Ubuntu Dialogue Corpus.

ALargeDatasetforResearchinUnstructuredMulti-TurnDi...

大小：0B | 2019-06-26 08:19:52
speech corpus collector 开源

《构建与利用开源语音语料库工具：speech corpus collector》在信息技术的广阔领域...

大小：1.99MB | 2024-09-21 06:33:51
vray1.5_sp2_for_max2009english64

64位windows7下3DSMAX2009可用的vray渲染器绝对有用

大小：0B | 2019-05-14 21:35:24
Adworld2009互动营销年度盛典English介绍

大小：0B | 2019-03-02 07:33:08