wikipedia category graph论文自动分配文章到宏类别的算法实现
维基百科类别图加载器文章“自动将维基百科文章分配给宏类别”的算法实现。该算法在Neo4j嵌入式实例中加载维基百科类别图,然后计算每个类别与一组选定类别的距离。整个过程包括以下步骤:
-
加载从维基媒体期刊数据库导出的category.sql文件。
-
为每个类别创建一个具有ID和名称属性的节点。
-
加载categorylinks.sql文件,在类别和文章之间创建边,同时即时创建文章节点。
-
使用论文中解释的算法计算与所选类别的距离,并根据行进方向对边使用不同的成本。
该程序适用于任何维基百科版本,对于en.wikipedia,运行大约20小时,在我的笔记本电脑上生成了一个15GB的图形数据库实例,包括Lucene索引。
用户评论