NLP word2vec pytorch
参考动手学深度学习搭建word2vec语言模型并在IMDB数据集中的train子集训练得到词嵌入.主要步骤如下1读取上一步的CSV文件构建数据集.2过滤掉词频较低的单词过滤频率门限为5.3对筛选出来的单词建立一个双向索引.4将句子索引化.5二次采样将出现频率过高的单词删去一些.6进行中心词和背景词的提取窗口大小设为5.7负采样.8通过嵌入层和批量矩阵乘法构建跳元模型.9定义损失函数为二元交叉熵损失.10初始化模型参数并进行训练得到训练结果并保存.
下载地址
用户评论