hzWikitaxonomyPeking University Wikipedia Project
hzWikitaxonomy 是一个由北京大学的 hanzhe 发起的维基百科相关项目,截止日期为 [1222]。项目计划包括以下几部分:
-
文档整理:后续计划涉及做 paraphrase 大作业代码(截止 [1221])。
-
分类归一化:处理页面分类 254517。
-
代码整理:
-
将 predicate 属性 迁移到 MySQL 存储,并改写 extract.predicateTable 代码。
-
将 triple 迁移到 MySQL 数据库存储,并改写 extract.triple 代码。
-
TimeTable:
-
抽取三元组 (v1.1,20140819)
-
predicate 正规化:
a. 特征抽取:
(1) **upper_title 信息提取** (2) **link 信息提取**
下载地址
用户评论