1. 首页
  2. 课程学习
  3. 嵌入式
  4. wikipedia category graph论文自动分配文章到宏类别的算法实现

wikipedia category graph论文自动分配文章到宏类别的算法实现

上传者: 2024-11-06 06:34:53上传 ZIP文件 14.76KB 热度 24次

维基百科类别图加载器文章“自动将维基百科文章分配给宏类别”的算法实现。该算法在Neo4j嵌入式实例中加载维基百科类别图,然后计算每个类别与一组选定类别的距离。整个过程包括以下步骤:

  1. 加载从维基媒体期刊数据库导出的category.sql文件。

  2. 为每个类别创建一个具有ID和名称属性的节点。

  3. 加载categorylinks.sql文件,在类别和文章之间创建边,同时即时创建文章节点。

  4. 使用论文中解释的算法计算与所选类别的距离,并根据行进方向对边使用不同的成本。

该程序适用于任何维基百科版本,对于en.wikipedia,运行大约20小时,在我的笔记本电脑上生成了一个15GB的图形数据库实例,包括Lucene索引。

用户评论