【动手学学学】NLP相关 [Period 2]
(这里将RNN的知识整理到了这里) (梯度boom/下降、过/欠拟合笔记在基础部分) * Task 2 【NLP初识】* 文本预处理 文本预处理是语言模型的基础,对后续的语言模型有着很大的影响。 文本预处理的过程时间文本中每个token(有时是word有时是char,看需求)转换为向量表示,每个token与向量一一对应(双射)即词向量。 最开始用的是one hot方法来构建这样的词向量,但这会造成数据稀疏,后续出现了很多方法来解决这一问题,例如【word2vec, ELMO, Bert, GPT等都是用于文本预处理的经典算法】 建立一个字典类,统计每个词出现的次数。 Vocab类:用于得到词
下载地址
用户评论