HexactTask:简单的网络爬虫 源码
Hexact任务 原始说明 您将任何网站作为输入,输出必须是该网站内所有链接以及其所有状态,这意味着您必须扫描任何网站(无论它将是哪种网站),并且在控制台上显示所有该站点的URL带有状态代码,并在末尾按状态代码显示URL的总数。 PS扫描整个网站,而不仅仅是首页 概念 正如我在上文中强调的那样,在设计和实施任务解决方案时要指定并牢记3个特定于任务的概念和一些其他概念 网站 指定Internet上Web资源的字符串,即 网址 统一资源定位符(URL)是一个文本字符串,用于指定可以在Internet上找到资源(例如网页,图像或视频)的位置。 关联 链接是一个概念性的构造,由a,area,form和link元素创建,它们表示两个资源之间的连接,其中之一是当前Document。 HTML中有两种链接: 链接到外部资源 这些是通常用于由用户代理自动处理的,用于扩充当前文档的资源的链接。 所有外部
下载地址
用户评论