BookCorpus文本数据集介绍
BookCorpus是一个受欢迎的大型文本数据集,可以在未受监督的情况下用于句子编码/解码器的学习。该数据集的来源包括smashwords,并且已经不再更新,但是仍然可以为学习自然语言处理提供有用的材料。您可以通过调用以下代码获得数据集:from datasets import load_dataset = load_dataset("bookcorpus")。此外,后续添加的句子可能会增加数量和多样性。
下载地址
用户评论