datathonms2014 这是一个为期一天的小型项目
数据马拉松2014 是一个为期一天的小型项目,通过在维基百科中抓取公司徽标,构建一个数据库,并使用徽标照片查询该数据库,以识别它所属的公司。该项目的实现基于多个开源工具和框架,详情请参考 数据科学实践马拉松源码 和 Data_Marathon用于数据马拉松源码。
项目运行步骤:
-
您需要运行爬虫程序(
Crawler.main
),它会从维基百科抓取数据。为了更好地理解爬虫的实现和配置,建议查看 马拉松数据数据集。 -
您可以通过程序参数指定要抓取的页面,例如通过命令
java Crawler "List of companies of the United States"
来获取美国公司的列表。如果您将Config.LOAD_ALL
设置为true
,程序将抓取Config.COMPANY_LISTS
中列出的所有页面。 -
运行爬虫时,建议首次设置
Config.RENEW_INDEX = true
,这将确保爬虫不会重复抓取同一页面,节省系统资源。 -
数据库抓取完成后,您可以通过运行
Identifier.main
来查询数据库,并识别上传的徽标属于哪家公司。这个查询模块的详细实现可以在 黑客马拉松模板源码 中找到。
用户评论