Scrapy框架简单应用:爬取免费的的西刺代理IP

上传者：methodical_27041 2021-05-20 18:10:43上传 .ZIP文件 14.62 KB 热度 43次

利用Scrapy框架爬取免费的的西刺代理IP

内含模拟浏览器，利用代理池反反爬虫

from urllib.request import ProxyHandler, build_opener

import re

from urllib import request

''' 本段注释代码，将获取的信息保存到MongoDB数据库

client = MongoClient('localhost', 27017)

db_auth = client.admin db_auth.authenticate("root", "123")

db = client['代理'] collection = db['IP代理'] '''

'''以文本方式保存到本地''' f = open('可用代理.txt','w',encoding='utf-8')

class ProxyPipeline(object):

def process_item(self, item, spider):

for i in range(0,len(item["IP"])):

#print(item['name'][i])

proxy = item['IP'][i] ':' item["port"][i]

proxy_handler = ProxyHandler({'http': 'http://' proxy}) opener = build_opener(proxy_handler)

try: head = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36', } url = 'http://www.xdaili.cn/monitor'

req = request.Request(url, headers=head) response = opener.open(req) data = response.read().decode('utf-8') # print(data)

if data:

'''保存到数据库 ret = collection.find_one({'IP': item['IP'][i], '端口': item["port"][i]})

if ret: # print('已经存在了') pass

else: collection.save({'IP': item['IP'][i], '端口': item['port'][i], '匿名度': item['nmd'][i], '类型': item['type'][i], '位置': item['addr'][i], '最后验证时间': item['lastime'][i]}) # 向数据库插入一条记录 '''

f.write( proxy) f.write("\n")

print(proxy)

except Exception as e:

#print(proxy "不可用") pass

getip.py

import scrapy from proxy.items import ProxyItem import re class GetipSpider(scrapy.Spider): name = 'getip' allowed_domains = ['xicidaili.com'] start_urls = [ 'http://www.xicidaili.com/wn/', 'http://www.xicidaili.com/wt/', ] def parse(self, response): item = ProxyItem() item["IP"] = response.xpath("//tr[@class = 'odd']/td[2]/text()").extract() item["port"] = response.xpath("//tr[@class = 'odd']/td[3]/text()").extract() item["nmd"] = response.xpath("//tr[@class = 'odd']/td[5]/text()").extract() item["type"] = response.xpath("//tr[@class = 'odd']/td[6]/text()").extract() item["addr"] = response.xpath("//tr[@class = 'odd']/td[4]/a/text()").extract() item["lastime"] = response.xpath("//tr[@class = 'odd']/td[10]/text()").extract() #print(item) yield item #rang = response.xpath("//div[@id = 'listnav']/ul/li[6]/a/text()").extract() #下一页，前5页最后验证时间临近的IP #print(int(rang[0]) 1) type = response.xpath("//div[@class='pagination']/a[last()]/@href").extract()[0] type = re.findall(r'/(.*?)/',type,re.S) #print(type) for i in range(2,4): next_page = response.urljoin('http://www.xicidaili.com/%s/%s/') % (type[0],i) print(next_page) #next_page = response.urljoin('https://www.kuaidaili.com%s%s/') % type % i yield scrapy.Request(next_page, callback=self.parse)

下载地址

用户评论

更多下载

下载地址

立即下载

用户评论

Scrapy框架简单应用爬取免费的的西刺代理IP

利用Scrapy框架爬取免费的的西刺代理IP内含模拟浏览器，利用代理池反反爬虫from urllib...

大小：14.62 KB | 2021-05-20 18:10:43
Scrapy框架爬取西刺代理网免费高匿代理的实现代码

分析需求: 爬取西刺代理网免费高匿代理,并保存到MySQL数据库中。这里只爬取前10页中的数据。...

大小：533KB | 2021-01-03 13:38:57
爬取西刺代理建立自己的IP池

爬取西刺代理IP，爬取多少页都OK，并将代理IP验证是否可用，可用存入xls表格。

大小：0B | 2019-05-04 10:15:45
最新代理池西刺免费代理IP

python代码获取免费的代理ip，每次运行自动抓取最新的西刺免费代理IP

大小：0B | 2019-05-31 19:10:15
python多线程爬取西刺代理的示例代码

西刺代理是一个国内IP代理，由于代理倒闭了，所以我就把原来的代码放出来供大家学习吧。然后再依次找到t...

大小：154.10 KB | 2022-01-01 13:34:27
Scrapy爬取西刺网站代理IP并写入MySQL源码

Scrapy crawls the West Spur website proxy IP and w...

大小：0B | 2019-06-27 06:02:23
Python使用requests xpath并开启多线程爬取西刺代理ip实例

主要介绍了Python使用requests xpath 并开启多线程爬取西刺代理ip实例,具有很好的...

大小：72KB | 2020-09-29 01:37:08
python用scrapy框架爬取代理ip的案例

使用python3.6版本，scrapy框架写的，学习网络爬虫一个很好的入门案例。可以直接运行，如果...

大小：0B | 2019-05-25 08:51:49
python3多线程爬取西刺代理并验证

大小：0B | 2019-02-27 04:42:58
爬取某代理IP网站的IP

大小：0B | 2019-01-18 09:38:43
python爬取西刺快站代理都是基于python3

python爬取西刺、快站代理,这个不是特别稳定,要看运气,如果要长时间爬取外站数据,不建议使用,代...

大小：10KB | 2020-10-10 03:17:09
scrapy框架爬取QQ新闻

Scrapy framework crawls QQ news

大小：0B | 2019-06-27 21:24:52
scrapy简单的多层页面爬取程序

恩..简单的scrapy简单的多层页面爬取程序，适用于初学者想尝试多层页面爬取又没有代码看的人，明天...

大小：0B | 2019-07-23 04:37:23
python爬虫脚本爬取快代理免费代理ip列表

用python爬虫从快代理网站获取有效的免费代理ip列表

大小：1.39KB | 2023-01-14 21:36:42
Scrapy框架的使用之Scrapy爬取新浪微博

本次爬取的目标是新浪微博用户的公开基本信息,如用户昵称、头像、用户的关注、粉丝列表以及发布的微博等,...

大小：486KB | 2021-02-19 10:50:09
利用Python爬取可用的代理IP

前言就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn...

大小：52KB | 2020-12-31 13:30:04