python使用urllib模块和pyquery实现阿里巴巴排名查询

pythoncream 2014-01-16

urllib基础模块的应用，通过该类获取到url中的html文档信息，内部可以重写代理的获取方法

代码如下：

class ProxyScrapy(object):
    def __init__(self):
        self.proxy_robot = ProxyRobot()
        self.current_proxy = None
        self.cookie = cookielib.CookieJar()

    def __builder_proxy_cookie_opener(self):        
        cookie_handler = urllib2.HTTPCookieProcessor(self.cookie)        
        handlers = [cookie_handler]

        if PROXY_ENABLE:
            self.current_proxy = ip_port = self.proxy_robot.get_random_proxy()
            proxy_handler = urllib2.ProxyHandler({'http': ip_port[7:]})
            handlers.append(proxy_handler)

        opener = urllib2.build_opener(*handlers)
        urllib2.install_opener(opener)
        return opener


    def get_html_body(self,url):
        opener = self.__builder_proxy_cookie_opener()


        request=urllib2.Request(url)
        #request.add_header("Accept-Encoding", "gzip,deflate,sdch")
        #request.add_header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
        #request.add_header("Cache-Control", "no-cache")
        #request.add_header("Connection", "keep-alive")


        try:
            response = opener.open(request,timeout=2)


            http_code = response.getcode()
            if http_code == 200:
                if PROXY_ENABLE:
                    self.proxy_robot.handle_success_proxy(self.current_proxy)
                html = response.read()
                return html
            else:
                if PROXY_ENABLE:
                    self.proxy_robot.handle_double_proxy(self.current_proxy)
                return self.get_html_body(url)
        except Exception as inst:
            print inst,self.current_proxy
            self.proxy_robot.handle_double_proxy(self.current_proxy)
            return self.get_html_body(url)

: pythoncream

相关推荐

详解golang开发中http请求redirect的问题

后来就看了下源码，了解下请求跳转的机制。可是我只想获取第一跳的的response 的状态码。只要设置checkRedirect返回error，理论上就能实现只请求一次的目的。如果返回，则不发送下一个请求，并且返回最近的响应且其主体未关闭。

86193952 0喜欢 / 0评论 2020-10-27

nginx配置proxy_pass中url末尾带/与不带/的区别详解

proxy_pass配置中url末尾带/时，nginx转发时，会将原uri去除location匹配表达式后的内容拼接在proxy_pass中url之后。到此这篇关于nginx配置proxy_pass中url末尾带/与不带/的区别详解的文章就介绍到这了,更多

小木兮子 0喜欢 / 0评论 2020-11-11

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 0喜欢 / 24评论 2020-11-17

Node 使用express-http-proxy 做api网关的实现

let { systemName, masterName, powers } = req.tokenDecode;

seanzed 0喜欢 / 0评论 2020-10-15

Webhooks与API的区别在哪里？

Webhooks起初看起来像是API，但它们略有不同。它们之间的主要区别在于，webhooks不需要发出请求即可获得响应，而API则需要发送请求才能获得响应。使用Webhooks可以接收，而API需要您检索。正确设置了Webhook之后，无论何时更新Git

huangliuyu00 0喜欢 / 0评论 2020-09-24

Nginx Rewrite使用场景及配置方法解析

redirect 返回302临时重定向，浏览器地址栏会显示跳转后的URL地址，爬虫不会更新自己的URL数据库

nginxs 0喜欢 / 0评论 2020-09-08

python 如何调用远程接口

在python中我们可以使用requests模块来实现调用远程接口。get方法常见的参数有url,params和headers. headers表示get传参的headers参数信息。# 接口返回的状态码。# #将字符串转字典型。# 接口返回的json格式

libaoshan 0喜欢 / 0评论 2020-09-11

python 自动提交到百度，利用百度API自动提交

sitemapUrls = re.findall('<loc>(.*?self.urls = re.findall('<loc>(.*?print("postBaidu:==========================

zhangpan 0喜欢 / 0评论 2020-09-10

ajax实现excel报表导出

项目中遇到一个场景，要导出一个excel报表。由于需要token验证，所以不能用a标签；由于页面复杂，所以不能使用表单提交。初步考虑前端使用ajax，后端返回流，定义指定的header。alert('导出失败，导出的内容为空！excel能正常导出，但下载下

chongxiaocheng 0喜欢 / 0评论 2020-08-16

ctf | php

一道难得可以看的懂的ctf题。id=1）把其中的id=1给取出来等等...下面是他的内部函数：。当我们判断s = /或者s+1 =/的时候就会仍未这是相对的url然后就取，而后认为 url 的部件从 url+2 开始。取不到应该去的值，所以导致过滤没啥用。

xcguoyu 0喜欢 / 0评论 2020-08-15

swagger报错No operations defined in spec!解决

swagger报错No operations defined in spec!一般有2个原因：。其中第2个path错误，path要是全匹配url，url是完整的，包含方法的url，本人因为path只写controller上的url，没写方法上的url，找了

Qizonghui 0喜欢 / 0评论 2020-08-02

mysql URL

characterEncoding=utf8&useUnicode=true. characterEncoding=utf8&useSSL=false&serverTimezone=UTC

ldcwang 0喜欢 / 0评论 2020-07-26

【Nginx】还不会使用Nginx解决跨域问题？肝这一篇就够了！！

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。而且大部分后端服务并不会只部署一套服务，而是会采用Ng

mqfcu 0喜欢 / 0评论 2020-07-21

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

解决办法：在URL对应位置换成以下字符即可，对应关系如下：+ URL 中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F% 指定特殊字符%25# 表示书签%23& URL 中指定的参

jeason 0喜欢 / 0评论 2020-07-20

用urllib库几行代码实现最简单爬虫

使用urllib.request()请求一个网页内容，并且把内容打印出来。# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。# 使用decode解码成我们能够看懂的格式。D:\ProgramData\Anacon

sunzhihaofuture 0喜欢 / 0评论 2020-07-19

一个菜鸟前端的自我提升：有关http请求中的get和post请求

在http/1.0中共定义了三种请求方式：get、post、head。在http/1.1中新增了五种请求方式：options、put、delete、trace、connect。在这八种方法中get、post这两种是最常见的请求方法。而post方法数据不会显

knightwatch 0喜欢 / 0评论 2020-07-19

从零开始手写 mybatis （三）jdbc pool 从零实现数据库连接池

第一节从零开始手写 mybatis（一）MVP 版本中我们实现了一个最基本的可以运行的 mybatis。本节我们一起来看一下如何实现一个数据库连接池。为什么需要连接池？数据库连接的创建是非常耗时的一个操作，在高并发的场景，如果每次对于数据库的访问都重新

点滴技术生活 0喜欢 / 0评论 2020-07-19

使用selenium 和图片验证码识别对12306的模拟登录+12306查询车次

记得索引位置，有部分车次的索引位置完全相反！！！我晕，暂时没想到怎么搞。此处headers 和cookies 自己获取，记得加！‘_jc_save_toDate‘: ‘2020-07-06‘,‘_jc_save_wfdc_flag‘: ‘dc‘,‘_jc_

Reiki 0喜欢 / 0评论 2020-07-06

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 0喜欢 / 0评论 2020-07-05

Python github

def get_search_github(keyword, language, pageIndex):. "q" : keyword,"type": "Repositories","l

zluxingzhe 0喜欢 / 0评论 2020-07-04

8_3 scrapy模拟登录人人网

在这个方法中发送post请求，没有重写这个方法基类Spider中的方法 start_request()默认是发送get请求。

javaraylu 0喜欢 / 0评论 2020-06-28

AndroidStudio右键new无activity

用AndroidStudio创建no Activity project,发现项目没有Sync成功，而且右键菜单new没有activity。反正就是把goodle()、jcenter()用maven换了。

82324899 0喜欢 / 0评论 2020-06-26

安卓开发中的mave镜像设置

抵达项目根部的build.gradle文件中，将下方有关maven添加进去即可：

水果篮 0喜欢 / 0评论 2020-06-25

【扫盲】ip、域名、DNS、url之间的关系

我们知道，在Internet上有千百万台主机，为了区分这些主机，人们给每台主机都分配了一个专门的地址，称为IP地址。IP地址由4部分数字组成，每部分都不大于256，各部分之间用小数点分开。我们的每个虚拟主机用户，都分配一个永久的IP地址。虽然可以通过IP地

dahege 0喜欢 / 0评论 2020-06-22

python网络爬虫——requests模块（第二章）

requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。服务器端检测到该次请求不是基于浏览器访问。本身是请求头中的一个信息。对方服务器端会检测请求载体的身份

我欲疾风前行 0喜欢 / 0评论 2020-06-18

解决gradle下载慢的问题

到~/.gradle/目录下创建一个 init.gradle 文件，把下面这些复制进去就 ok 了allprojects{repositories {def ALIYUN_REPOSITORY_URL = ‘http://maven.aliyun.com/

StephenWong 0喜欢 / 0评论 2020-06-18

php判断远程文件是否存在

php判断本地文件是否存在可以简单的使用is_file就可以实现。但是在部分情况下会检测远程文件是否存在，实现方式如下

JF0 0喜欢 / 0评论 2020-06-16

Java++：安全|API接口安全性设计

接口的安全性主要围绕 token、timestamp 和 sign 三个机制展开设计，保证接口的数据不会被篡改和重复调用，下面具体来看：。　　用户使用用户名密码登录后服务器给客户端返回一个Token，并将Token-UserId以键值对的形式存放在缓存服务

playis 0喜欢 / 0评论 2020-06-16

http协议中各个响应状态返回值（200、400、404、500等）的含义

100：客户端必须继续发出请求。201，提示知道新文件的URL。206，服务器已经完成了部分用户的GET请求。301，本网页被永久性转移到另一个URL。303，建议用户访问其他URL或访问方式。401，请求未经授权。402，保留有效ChargeTo头响应。

88407013 0喜欢 / 0评论 2020-06-16

SpringMVC的其他注解

@RequestMapping//窄化请求 url,项目名+user+sayHello.action. 如果前端没有传递这个相同name的数据类型, springMVC给参数赋的值是null,　　>required: boolean类型, true,

neweastsun 0喜欢 / 0评论 2020-06-16

Dubbo-URL、数据包结构

在 dubbo 中，也使用了类似的 URL，主要用于在各个扩展点之间传递数据，组成此 URL 对象的具体参数如下:. 基于扩展点自适应机制，通过 URL 的 registry:// 协议头识别，就会调用 RegistryProtocol 的 export(

XuNeely 0喜欢 / 0评论 2020-06-16

less学习----less变量

相信在写css的时候，你总会发现，你某些属性的值一直都是重复的，例如系统的背景颜色、logo的地址等等，因此通过less 的变量，你可以将重复的值用一个变量保存起来，然后就直接用！！！呀，没错，就只是直接替换而已，是不是很简单，关于less的变量介绍就这么

覆雪蓝枫 0喜欢 / 0评论 2020-06-16

Flask框架简介

Flask 是一个Python编写的一种轻量级的框架，只提供了web框架基本的功能，比其他的框架更加灵活、自由。工作中会根据需求，在Python环境下使用各种框架和包,但是可能每个项目使用的框架和版本不一样，这样就要根据需要更新和卸载相应的库，为了不必要的

JessePinkmen 0喜欢 / 0评论 2020-06-14

Jquery ajax书写方法代码实例解析

Ajax在前端的应用极其广泛，因此，我们有必要对其进行总结，以方便后期的使用。　　可以异步请求服务器的数据，实现页面数据的实时动态加载，在不重新加载整个页面的情况下，可以与服务器交换数据并更新部分网页内容。jquery在全局对象jquery绑定了ajax

ppsurcao 0喜欢 / 0评论 2020-06-14

基于javascript处理二进制图片流过程详解

url += '&' + key + "=" + data[key];

87570495 0喜欢 / 0评论 2020-06-14

Python学习第107天（Django的url控制和conf设置）

<p>爱好<input type="checkbox" name="hobby" value="1">篮球。　　　　1.当我们启动127.0.0.1/register，此时

aweilark 0喜欢 / 0评论 2020-06-14

获取html内容之后，如何提取信息：使用正则表达式筛选

例如想获取下面这些内容的链接。这两种方法都能实现数据的筛选，他们的区别主要是：是否使用re.compile()。这个实际影响到的是大数据量级时的性能，目前仅作了解。最后是简单的筛选href内容的代码和结果，结果里看出有些href内容并不是http链接，这个

AHuqihua 0喜欢 / 0评论 2020-06-14

使用Promise并发限制

Promise.all可以保证，promises数组中所有promise对象都达到resolve状态，才执行then回调。那么会出现的情况是，你在瞬间发出几十万http请求，或者堆积了无数调用栈导致内存溢出.这个时候需要我们对HTTP的连接数做限制。con

88520191 0喜欢 / 0评论 2020-06-13

到底什么是RESTFUL风格架构？

随着前后端分离的流行，以及移动互联网的爆发，导致后端API接口要向不同的Web端提供服务，那么对于 API 的规范就需要有一定的要求了。表现层状态转换是根基于超文本传输协议之上而确定的一组约束和属性，是一种设计提供万维网络服务的软件构建风格。

ahnjwj 0喜欢 / 0评论 2020-06-12

http请求常见状态码

200 OK：表示从客户端发送给服务器的请求被正常处理并返回；206 Patial Content：表示客户端进行了范围请求，并且服务器成功执行了这部分的GET请求，响应报文中包含由Content-Range指定范围的实体内容。303 See Other：

标题无所谓 0喜欢 / 0评论 2020-06-10

增量式爬虫

检测：如果对某一个详情页的url发起请求之前先要取记录表中进行查看，该url是否存在，存在的话认为着这个url已经被爬取过了。

chenqunhui 0喜欢 / 0评论 2020-06-10

Python实战之如何爬取猫眼电影排行？本文详解

本节中，我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。requests比urllib使用更加方便，而且目前我们还没有系统学习HTML解析库，所以这里就选用正则表达式来作为解析工具。在本节开始之前，请确保已经正确安装好了requ

singer 0喜欢 / 0评论 2020-06-08

深度优先、广度优先python爬虫

搜索引擎课的一次小实验~以指定网址为根节点，遍历访问 50 个页面并爬取这些页面上的所有网址。visited = [] # 已经访问过（爬取过）的url。end_flag = False # 标志是否该结束了。req = requests.get # ve

sunzhihaofuture 0喜欢 / 0评论 2020-06-06

[JavaScript] HTML5 播放hls流媒体视频流

PC端chrome，IE，Firefox以及集成以上内核的各种浏览器，以及旧版的Android SDK的webview 不能播放

WebVincent 0喜欢 / 0评论 2020-06-06

python爬虫 url链接编码成gbk2312格式

3. 那么=%B9%FA%CE%F1%D4%BA%B7%A2%D5%B9%D1%D0%BE%BF%D6%D0%D0%C4是什么东西啊

oXiaoChong 0喜欢 / 0评论 2020-06-05

Python除了做爬虫抓数据还能做什么？其实还能监视和衡量网站性能

借助这份对初学者友好的指南，您可以构建自己的自定义Python脚本来自动测量网站的关键速度和性能指标。在过去的一个月中，Google宣布了许多通过关键速度和性能指标来衡量用户体验的方法。巧合的是，我一直在努力编写一个Python脚本，该脚本使用Google

ARCXIANG 0喜欢 / 0评论 2020-06-05

8 百度360搜索关键词提交

"""百度搜索关键词提交""". kv = {‘wd‘: ‘keyword‘}

jtguve 0喜欢 / 0评论 2020-06-04

ASP.NET MVC5 - 视图页URL地址传参与控制器接受

2- Home/Index?id1=88?id2=99 （Request三种接受方法）

闲来也无事 0喜欢 / 0评论 2020-06-04

PHP FILTER_VALIDATE_URL 过滤器

name=Peter&age=37"）。<?>. <?php$url = "example.php?name=Peter&age=37";if(!>高佣联盟www.cgewang.com

xcguoyu 0喜欢 / 0评论 2020-06-03

sqlmap和手注

如果上面无效时，可以试试添加--data="name=value"来指定传参进行测试注入。-- 在SQL内表示注释，但在URL中，浏览器在发送请求的时候会把URL末尾的空格舍去，变成--，所以我们用--+代替-- ，原因是+在被URL编

旗木卡卡西 0喜欢 / 0评论 2020-06-02