1. 首页
  2. 大数据
  3. Hadoop
  4. 停词表stop_words_eng.txt

停词表stop_words_eng.txt

上传者: 2020-02-27 02:01:25上传 TXT文件 5.75KB 热度 31次
停词表,可用于文档倒排索引中。人类语言包含很多功能词。与其他词相比,功能词没有什么实际含义。最普遍的功能词是限定词(“the”、“a”、“an”、“that”、和“those”),这些词帮助在文本中描述名词和表达概念,如地点或数量。介词如:“over”,“under”,“above”等表示两个词的相对位置。 这些功能词的两个特征促使在搜索引擎的文本处理过程中对其特殊对待。第一,这些功能词极其普遍。记录这些词在每一个文档中的数量需要很大的磁盘空间。第二,由于它们的普遍性和功能,这些词很少单独表达文档相关程度的信息。如果在检索过程中考虑每一个词而不是短语,这些功能词基本没有什么帮助。 在信息
用户评论