1. 首页
  2. 考试认证
  3. 其它
  4. datathonms2014 这是一个为期一天的小型项目

datathonms2014 这是一个为期一天的小型项目

上传者: 2024-08-17 16:41:19上传 ZIP文件 12.42KB 热度 3次

数据马拉松2014 是一个为期一天的小型项目,通过在维基百科中抓取公司徽标,构建一个数据库,并使用徽标照片查询该数据库,以识别它所属的公司。该项目的实现基于多个开源工具和框架,详情请参考 数据科学实践马拉松源码Data_Marathon用于数据马拉松源码

项目运行步骤

  1. 您需要运行爬虫程序(Crawler.main),它会从维基百科抓取数据。为了更好地理解爬虫的实现和配置,建议查看 马拉松数据数据集

  2. 您可以通过程序参数指定要抓取的页面,例如通过命令 java Crawler "List of companies of the United States" 来获取美国公司的列表。如果您将 Config.LOAD_ALL 设置为 true,程序将抓取 Config.COMPANY_LISTS 中列出的所有页面。

  3. 运行爬虫时,建议首次设置 Config.RENEW_INDEX = true,这将确保爬虫不会重复抓取同一页面,节省系统资源。

  4. 数据库抓取完成后,您可以通过运行 Identifier.main 来查询数据库,并识别上传的徽标属于哪家公司。这个查询模块的详细实现可以在 黑客马拉松模板源码 中找到。

用户评论