知乎看山杯NLP实战复盘
知乎的“看山杯”比赛经验贴,蛮值得一看,尤其是你对多标签文本分类感兴趣的话。这篇文章不是那种干巴巴的理论灌输,而是作者亲身实战的完整复盘。
从 300 万条数据怎么预,到怎么用CNN
、RNN
加注意力机制提特征,细节讲得挺清楚。像打乱词顺序、随机删词这种数据增强方法,也比较接地气,适合你直接拿来试试。
模型部分也不啰嗦,直接说了怎么 embedding,怎么提取局部和上下文信息,还讲了比赛的F1
怎么考你顺序性。如果你最近在搞NLP
,或者正好碰到类似的多标签场景,拿这套思路套一套,八成有用。
顺便补几个资源,像Glove 词向量、多分类数据集、BERT 多标签分类代码这些也挺配套。你想搭模型,省事不少。
建议你看完可以试着自己搭个模型跑一下,注意别忘了评估指标那块和传统不太一样,预测顺序也要考虑进来。要是你平时就用PyTorch
,那这套流程上手就更快了。
下载地址
用户评论