文本分类模型处理流程
文本分类模型处理流程 1.样本整理 2.数据预处理 直接按照字符处理可以使用keras的api Tokenizer(char_level=True) 建立字符数字索引 text_to_sequences() 将句子转成数字 pad_sequences() 将句子填充到相同长度 分词 jieba hanlp等(对于项目里特殊的词汇,可以手动加到分词词库里) 用其他公司训练的词向量 自定义词向量(使用gensim word2vec训练) 直接使用keras Embedding训练,指定输出维度,随机初始化后训练 word2vec skipgram 用中心词训练背景词,实际使用的时中心词向量,分母是
用户评论