中文微博情感分析项目源码解析【毕业设计】
FastText是一种在语料库上进行词向量训练的机器学习工具,尤其适用于较小的任务语料库。通过FastText,我们能够在训练中引入n-gram特征,相较于传统的word2vec,其表现更为出色。在本项目中,训练集包含10000条语料,测试集则有500条语料。我们采用了多种模型,包括SVM、Bayes、DNN、LSTM、Attention+BiLSTM、XGBoost等,搭建并训练了正负情感二分类器。虽然SVM在NLP任务中并不是首选,但在项目初期,由于作者技术水平有限,选择了SVM。Bayes在速度和效果上表现优异,可能是因为任务语料规模较小。然而,其在大规模语料任务上性能可能会下降,且磁带模型丧失了语序信息,拓展性不强。DNN表现不佳,但目前在NLP中较少直接使用DNN的情况。LSTM充分利用上游训练的FastText词向量,并考虑了语序信息,因此在效果上有明显提升。Attention+BiLSTM效果显著,尽管相较于纯LSTM,提升并不十分明显,主要因为任务相对简单,语料有限。迁移至更复杂任务时,注意力机制的优势将更加显著。XGBoost在机器学习领域表现卓越,在本项目中也展现了强大的性能。
用户评论