1. 首页
  2. 数据库
  3. 其它
  4. 搜寻器:Chromium Puppeteer网站搜寻器 源码

搜寻器:Chromium Puppeteer网站搜寻器 源码

上传者: 2021-02-01 10:00:59上传 ZIP文件 14.44KB 热度 13次
Chromium / 网站抓取工具 该搜寻器从给定的站点入口点开始执行BFS。 它不会离开入口点域,也不会多次爬网页面。 给定共享的Redis主机/群集,此搜寻器可以分布在多台计算机或进程中。 发现的页面将存储在mongo集合中,每个页面都有一个url,出站url和距原点的半径。 安装 yarn 用法 基本的 ./crawl -u https://www.dadoune.com 分散式 # Terminal 1 ./crawl -u https://www.dadoune.com # Terminal 2 ./crawl -r 除错 DEBUG=crawler: * ./crawl -u
用户评论