1. 首页
  2. 网络技术
  3. 其他
  4. WikiText英语词库数据数据集

WikiText英语词库数据数据集

上传者: 2024-08-30 08:16:55上传 ZIP文件 373.39MB 热度 12次
WikiText英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的Penn Treebank (PTB)词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。
用户评论