四叶草 2020-02-25
ProxyHandler处理器
一、如果我们在一段时间内用某个ip地址访问了一个网站次数过多,网站就检测到不正常,就会禁止这个ip地址的访问。所以我们可以设置一些代理服务器,每段时间换个代理,就算ip被禁止,我们也可以换个ip继续爬取
代理有
1、西刺免费代理:http://www.xicidaili.com/
2、快代理:http://www.kuaidaili.com/
3、代理云:http://www.dailiyun.com/
有免费的代理和付费的代理
二、通过网址:http://httpbin.org/ip,可以看到电脑与外网连接的ip,
也可以通过代码,url=‘http://httpbin.org/ip‘,查看ip地址
url = ‘http://httpbin.org/ip‘ resp=request.urlopen(url) print(resp.read())
三、当使用代理之后,ip地址就会发生变化
from urllib import request url = ‘http://httpbin.org/ip‘ # 1、使用 ProxyHandler,传入代理构建一个handler handler = request.ProxyHandler({"http":"223.241.78.43:8010"}) # 2、使用上面创建的handler构建一个opener opener = request.build_opener(handler) # 3、使用opener去发送一个请求 resp=opener.open(url) print(resp.read())
这个时候输出的结果就是代理的ip地址,网站不知道真实的ip地址,自己的ip地址就不会被禁了