1. 首页
  2. 数据库
  3. 其它
  4. 【动手学学学】NLP相关 [Period 2]

【动手学学学】NLP相关 [Period 2]

上传者: 2021-01-17 01:15:15上传 PDF文件 376.32KB 热度 9次
(这里将RNN的知识整理到了这里) (梯度boom/下降、过/欠拟合笔记在基础部分) * Task 2 【NLP初识】* 文本预处理 文本预处理是语言模型的基础,对后续的语言模型有着很大的影响。 文本预处理的过程时间文本中每个token(有时是word有时是char,看需求)转换为向量表示,每个token与向量一一对应(双射)即词向量。 最开始用的是one hot方法来构建这样的词向量,但这会造成数据稀疏,后续出现了很多方法来解决这一问题,例如【word2vec, ELMO, Bert, GPT等都是用于文本预处理的经典算法】 建立一个字典类,统计每个词出现的次数。 Vocab类:用于得到词
下载地址
用户评论