512 Data Mining Project:转移学习 源码
512数据挖掘项目 转移学习 环境 依存关系 conda env create -f environment.yaml 请注意,如果您更新环境,请确保更新enviroment.yaml conda env导出> environment.yaml 数据 使用ir_datasetsc 数据挖掘组件 我们的系统采用orcas数据集,并以各种方式创建表示查询相似性的数据集。首先,我们加载查询并使用qid-documents点击和document-query查询点击形成哈希图。然后,我们删除所有与阈值不匹配的查询(最小长度5和最大长度20)。使用此点击图,我们探索了创建数据集的3种方式。数据集的目标遵循QQP数据集,并且是query1 \ tquery2 \ tIs_similair(binary)。我们有能力生产一个非常大的数据集,我们认为这对模型预训练很有用。我们所有的数据集都基于通过随机选择得
用户评论