hoopchina篮球网站50万数据爬取java代码
自己写的一个爬取hoop数据的方法,全部运行成功能爬取五十万的数据量,总共开启了二十个线程同时跑,整合了java原生mail包和jsoup以及mybatis,使用的是mysql数据库。遇到能catch的异常的时候会给邮箱发邮件显示出错的url,目前为止唯一会引起所有线程中断的异常是连接时间过长,timeout设置的是10秒,根据自己的网速可以把timeout设置长一点。嗯······目前就这些,发件箱最好使用网易邮箱,亲测可用,收件箱随意。使用网易邮箱的时候注意输入的密码是授权码不是登录的密码,授权码可以在网易邮箱中设置,具体不知道的自己百度很容易找到。就这样,有问题私信我我都会回复,以前只知道下载积分没了,所以就设置了两个积分下载
用户评论