搜寻器:Chromium Puppeteer网站搜寻器 源码
Chromium / 网站抓取工具 该搜寻器从给定的站点入口点开始执行BFS。 它不会离开入口点域,也不会多次爬网页面。 给定共享的Redis主机/群集,此搜寻器可以分布在多台计算机或进程中。 发现的页面将存储在mongo集合中,每个页面都有一个url,出站url和距原点的半径。 安装 yarn 用法 基本的 ./crawl -u https://www.dadoune.com 分散式 # Terminal 1 ./crawl -u https://www.dadoune.com # Terminal 2 ./crawl -r 除错 DEBUG=crawler: * ./crawl -u
用户评论