wsdm_cup_2020_solution:WSDM CUP 2020的第一名解决方案pair bertlightgbm 源码
wsdm_cup_2020_solution 队名:ferryman 团队成员:星矢,Eclipse,意志,渡船 1.概述 该存储库包含我们的“解决方案,这是任务之一。 比赛提供了一个庞大的论文数据集,其中包含大约80万篇论文,以及描述研究论文的段落或句子。这些描述主要来自介绍引文的论文。要求参与者认识描述文本中引用的论文。 在分析了挑战之后,我们将其视为信息检索(IR)任务。IR着重于通过查询来自大量候选文档的查询来找到最匹配的Top N文档的问题。在这个挑战中,描述文本是查询,而候选论文是要检索的文档。为了应对这一挑战,我们制定了一个包括两个阶段的计划,包括召回和排名。在召回阶段,建立了几种无监督的方法来缩小候选人的范围,然后我们通过学习对模型进行排序来对在召回阶段选择的候选人论文进行排名。 2.撤离 召回结果不仅用于减少等级模型的检索范围,而且还作为LGB等级阶段使用的功能的一部
用户评论