python爬虫解决网页重定向问题

凌云客 2019-06-28

笔者编写的搜索引擎爬虫在爬取页面时遇到了网页被重定向的情况，所谓重定向(Redirect)就是通过各种方法
（本文提到的为3种）将各种网络请求重新转到其它位置（URL）。
每个网站主页是网站资源的入口，当重定向发生在网站主页时，如果不能正确处理就很有可能会错失这整个网站的内容。

以下列出遇到的3种重定向情况（使用python2.7+requests编写爬虫）：

1.服务器端重定向

在服务器端完成，一般来说爬虫可以自适应，是不需要特别处理的，如响应代码301（永久重定向）、302（暂时重定向）等。具体来说，可以通过requests请求得到的response对象中的url、status_code两个属性来判断。当status_code为301、302或其他代表重定向的代码时，表示原请求被重定向；当response对象的url属性与发送请求时的链接不一致时，也说明了原请求被重定向且已经自动处理。

2.meta refresh

即网页中的<meta>标签声明了网页重定向的链接，这种重定向由浏览器完成，需要编写代码进行处理。例如，某一重定向如下面的html代码第三行中的注释所示，浏览器能够自动跳转，但爬虫只能得到跳转前的页面，不能自动跳转。

<html>
<head>
<meta http-equiv="refresh" content="0.1;url=http://www.redirectedtoxxx.com/"><!--本网页会在0.1秒内refresh为url所指的网页-->
</head>
</html>

解决办法是通过得到跳转前的页面源码，从中提取出重定向url信息（上述代码第三行中的url属性值）。
具体的操作：使用xpath('//meta[@http-equiv="refresh" and @content]/@content')提取出content的值或者使用正则表达式提取出重定向的url值。

3.js 重定向

通过JavaScript代码形式进行重定向。如下面JavaScript代码

<script language=javascript>window.location.href='http://www.redirectedtoxxx.com'</script>

对于这种方式的跳转，由于可以实现该功能的JavaScript语句有多种形式，不能再使用正则表达式提取url，只能考虑加载JavaScript代码来进行解决，例如使用selenium 无头浏览器phantomJS 模拟浏览器操作
关于phantomJS的一些简单操作语法可以在我这篇phantomJS中看下

: 凌云客

相关推荐

6张图带你学懂 Kubernetes Ingress

Kubernetes Ingress 只是 Kubernetes 中的一个普通资源对象，需要一个对应的 Ingress 控制器来解析 Ingress 的规则，暴露服务到外部，比如 ingress-nginx，本质上来说它只是一个 Nginx Pod，然后将

朱培知浅ZLH 0喜欢 / 0评论 2020-11-16

CentOS 8 Apache 安装后 SSL 重定向提示证书错误

在启用 SSL 后，我们也希望将主域名重定向到 www。如果我们按照 80 端口的 http 配置的，你可能会得到浏览器的安全配置。这是因为如果你在 HTTPS 的 SSL 中也这样配置是不允许的。因为这个可能会导致安全性问题和攻击。简单来说，出现这个问题

Junzizhiai 0喜欢 / 0评论 2020-10-10

Linux后台执行命令：&与nohup的用法

大家可能有这样的体验：某个程序运行的时候，会产生大量的log，但实际上我们只想让它跑一下而已，log暂时不需要或者后面才有需要。所以在这样的情况下，我们希望程序能够在后台进行，也就是说，在终端上我们看不到它所打出的log。为了实现这个需求，我们介绍以下几种

zhangbingb 0喜欢 / 0评论 2020-09-21

Web项目的WEB-INF目录使用说明以及重定向与转发

WEB-INF下面的内容都是只能由服务器级别才能访问，客户端并不能访问。转发就是服务器级别，浏览器的地址不会变，因为，客户端发送一个请求，服务器受理之后，发现要请求内容还要再去别的请求，那么转发就是服务器自己去处理完成。不麻烦客户端(浏览器)了，所以客户端

ROES 0喜欢 / 0评论 2020-08-17

linux重定向及nohup不输出的方法

先说一下linux重定向：0、1和2分别表示标准输入、标准输出和标准错误信息输出，可以用来指定需要重定向的标准输入或输出。这样标准输出还是在屏幕上，但是错误信息会输出到log文件中。Linux下还有一个特殊的文件/dev/null，它就像一个无底洞，所有重

ningningmingming 0喜欢 / 0评论 2020-07-28

Linux重定向用法详解

大家好，我是良许。答案是肯定的，那就是重定向。重定向是一种高效的方法，无需大量的鼠标与键盘操作就可以完成数据的转移。重定向可以分为输入重定向以及输出重定向这两种类型。由于所有程序都有输入或者输出，因此输入和输出的重定向是任何编程语言或脚本语言都自带的功能。

Jiajinjin 0喜欢 / 0评论 2020-07-27

shell其他

　　这样，本来需要从键盘获取输入的命令会转移到文件读取内容。标准错误文件：stderr的文件描述符为2，Unix程序会向stderr流中写入错误信息。默认情况下，command > file将 stdout 重定向到 file，command <

懒人的小窝 0喜欢 / 0评论 2020-07-04

第十一节：IdentityServer4授权码模式介绍和代码实操演练

　　授权码模式是功能最完整、流程最严密的授权模式。它的特点就是通过客户端的后台服务器，与"服务提供商"的认证服务器进行互动。用户访问客户端，后者将前者导向认证服务器。假设用户给予授权，认证服务器将用户导向客户端事先指定的"重定

wykpaopao 0喜欢 / 0评论 2020-06-28

shell脚本在后台运行以及日志重定向输出

Linux默认定义两个变量：1和2；其中 cmd > out.log & 和 cmd 1 > out.log & 是一样的，如果想忽略某个输入，则输出到 /dev/null 设备即可。但是这种后台xshell窗口在退出ssh登录

lishaokang 0喜欢 / 0评论 2020-06-12

【Windows学习】解决python无法访问win64系统drivers目录重定向文件问题

#!/usr/bin/env python. self.success = self._disable(ctypes.byref(self.old_value)). if os.path.exists(r‘C:\Windows\System32\drive

Greatemperor 0喜欢 / 0评论 2020-06-10

django 之redirect()函数全解

一个绝对的或相对的URL, 将原封不动的作为重定向的位置.默认返回一个临时的重定向, 传递permanent=True可以返回一个永久的重定向.示例:你可以用多种方式使用redirect()函数.传递一个具体的ORM对象.将调用具体ORM对象的get_ab

谢育政 0喜欢 / 0评论 2020-05-27

linux 重定向

与 Unix 主题“任何东西都是一个文件”保持一致，程序，比方说 ls，实际上把他们的运行结果输送到一个叫做标准输出的特殊文件，而它们的状态信息则送到另一个叫做标准错误的文件。默认情况下，标准输出和标准错误都连接到屏幕，而不是保存到磁盘文件。除此之外

wanggongzhen 0喜欢 / 0评论 2020-05-26

Linux nohup命令原理及实例解析

在应用Unix/Linux时，我们一般想让某个程序在后台运行，于是我们将常会用 & 在程序结尾来让程序自动运行。可是有很多程序并不想mysqld一样，这样我们就需要nohup命令。nohup命令可以将程序以忽略挂起信号的方式运行起来，被运行的程序的

ITlover00 0喜欢 / 0评论 2020-05-07

Linux就该这么学丨必备Linux命令（二）

　　1）tar -czvf etc.tar.gz /etc. 　　2）tar -xzvfetc.tar.gz -C /root/etc. 　　1）grep -n boot /etc/haha.txt. f2：匹配比文件f1新但比f2旧的文件。　　--typ

zhongcanw 0喜欢 / 0评论 2020-05-08

阿里P8架构师谈：数据库、JVM、缓存、SQL等性能调优方法和原则

性能优化基本是BAT等一线互联网公司程序员必备的技能，以下为大家完整揭晓性能完整的优化方案和方法：包含web网站调优、数据库、JVM调优、架构调优等方案。这一条要灵活运用，把js和css提取出来放在外部文件的优点是：减少html体积，提高了js和css的复

DAV数据库 0喜欢 / 0评论 2020-05-07

小程序定制开发WEB服务器-设置网站301全站跳转(域名301重定向)

导读：今天给大家分享小程序定制开发网站的301全站跳转或域名301重定向。WEB服务器zhaowucc.cn 301全站跳转的操作过程分2步分详细给大家作讲解。名词解释301重定向：是一种非常重要的“自动转向”技术，是SEO中常用的一种技术，在网站改版、更

服务器端攻城师 0喜欢 / 0评论 2020-05-04

把GCC的编译信息重定向到一个文件

最近在Linux下进行编程，很多写好的代码要进行编译。在链接很多文件的时候，经常会出现很多的错误，而Linux下终端显示是有限的，因此每次调试的时候如果错误太多就会很不方便。如果使用简单的管道重定向如下：。这种方式是不行的。我上网找相关的方法，发现很多人在

ningningmingming 0喜欢 / 0评论 2020-05-01

测试公开课资料系列01--Fiddler之AutoResponse在线调试利器

做的技艺来自做的过程。在Fiddler的AutoResponder页签设置匹配规则，服务器返回的数据先返回到Fiddler上，返回的数据如果和设置的匹配规则匹配成功，则自动根据设置的后续动作进行返回到客户端。Unmatched requests passt

yuleng测试赛 0喜欢 / 0评论 2020-04-11

十二、Shell篇——管道与重定向

管道和信号一样，也是进程通信的方式之一匿名管道(管道符)是Shell编程经常用到的通信工具管道符是“|”，将前一个命令执行的结果传递给后面的命令。cat和ps都是外建命令，管道符会为这两条命令建立一个子进程，外建命令是以子进程的方式运行的。由于内建命令执行

tvk 0喜欢 / 0评论 2020-04-06

shell 重定向以及文件描述符

Linux Shell重定向分为两种，一种输入重定向，一种是输出重定向；从字面上理解，输入输出重定向就是「改变输入与输出的方向」的意思。不过，在Linux中，标准输入设备指的是键盘，标准输出设备指的是显示器。文件描述符是内核为了高效管理已被打开的文件所创建

Jieen 0喜欢 / 0评论 2020-03-23

Linux >/dev/null 2>&1

当时不明白为什么这么写，只知道是将所有输出信息全部重定向到空。实际上 >/dev/null 2>&1 等同于 1>/dev/null 2>/dev/null ，默认情况下就是1，标准输出，所以一般都省略。而&符号后面

小惠 0喜欢 / 0评论 2020-03-04

Linux大文件重定向和管道的效率对比

大家先看一下上面二个命令，假如huge_dump.sql文件很大，然后猜测一下哪种导入方式效率会更高一些?这个问题挺有意思的，我的第一反应是：没比较过，应该是一样的，一个是cat负责打开文件，一个是bash. 再来写个systemtap脚本用来方便观察程序

maclinuxye 0喜欢 / 0评论 2020-02-24

Linux命令（cp mv cat和重定向）

cp 1.txt 2.txt -a复制源文件的所有属性。cp 1 2 -r若给出的源文件为目录文件，cp将递归复制该目录下的所有子目录和文件，目录文件必须为一个目录名。-f 覆盖已经存在的目录文件而不提示。cp abc abc_back -r 拷贝文件夹。

jiangtie 0喜欢 / 0评论 2020-02-09

jmeter(2)-HTTP sample详解

Content encoding：一般content encoding配置为utf8；或者iso8859. 是一个实体消息首部，用于对特定媒体类型的数据进行压缩。当这个首部出现的时候，它的值表示消息主体进行了何种方式的内容编码转换。这个消息首部用来告知客户

jocleyn 0喜欢 / 0评论 2020-02-02

后台运行-nohup，&

表示挂起一般配合&使用，可以达到关闭终端仍在运行的效果。表示后台运行sh shell.sh命令，并将标准输出打印到out.log，当关闭终端时仍可以运行。

lishaokang 0喜欢 / 0评论 2020-02-01

使用文件重定向

当你测试程序时, 反复从键盘敲入一些数据作为程序的输入是非常乏味的. 大多数操作系统支持文件重定向, 这种机制允许我们将标准输入和标准输出与命名文件关联起来:. 上述命令会从一个名为infile的文件读取数据, 并将输出结果写入一个名为outfile的文件

Henryztong 0喜欢 / 0评论 2020-01-19

【Linux shell】 while read line

循环中的重定向或许你应该在其他脚本中见过下面的这种写法：while read linedo …因为循环内有很多条命令，而我们之前接触的重定向都是为一条命令工作的。，输入的时候以空格作为字段分隔符。read的一个最大特性是可以在脚本中产生交互，因

onetozero 0喜欢 / 0评论 2020-01-16

常见HTTP状态码

201Created 服务器已经创建了文档，Location头给出了它的URL。202Accepted 已经接受请求，但处理尚未完成。204NoContent 没有新文档，浏览器应该继续显示原来的文档。如果用户定期地刷新页面，而Servlet可以确定用户文

knightwatch 0喜欢 / 0评论 2019-12-30

Nginx的location匹配规则-根据url 路径重定向到不同的IP

使用CAS登录的过程中会涉及到三次重定向，如果在同一个局域网内，是没有任何问题的，但如果涉及到跨网访问就有问题了。通过Nginx对要访问的系统进行代理，把响应头中的重定向Location的地址改成外网能访问到的IP，实现跨网访问。如果请求匹配这个locat

咻咻ing 0喜欢 / 0评论 2020-01-11

Linux中的错误重定向你真的懂吗

在很多定时任务里、shell里我们往往能看到 "2>&1",却不知道这背后的原理。上面的例子"2>&1"已经知道是将标准错误重定向到标准输出，而test.sh的标准输出就是/dev/nul

sunln00 0喜欢 / 0评论 2020-01-10

性能测试-JMeter断言之响应断言精说

断言用于验证取样器请求或对应的响应数据是否返回了期望的结果。可以是看成验证测试是否预期的方法。但大部分是对Response做断言。第一次URL和重定向返回的所有URL请求为子取样器。对于HTTP协议来说，是响应状态码，比如200、304、404等。HTTP

xinjing0 0喜欢 / 0评论 2020-01-04

《Linux Shell》之八：I/O重定向

当linux系统启动一个进程时，将自动为该进程打开三个文件：stdin、stdout、stderr，分别由文件标识符0、1、2标识。set命令可以用来定制shell环境，使用选项“o”来打开或者关闭选项。可以自己试验下，不解释。exec 0<&

alwayshelloworld 0喜欢 / 0评论 2013-06-30

常见的HTTP状态码(HTTP Status Code)说明

服务器成功处理了请求并返回。3开头：表示请求完成，需要进行下一步操作。请求页面已永久重定向到新的位置。如果服务器返回此响应，还表示请求者应使用代理。请求要求身份验证。禁用请求中指定的方法。服务器等候请求时发生超时。服务器不接受不含有效内容长度标头字段的请求

GimmeS 0喜欢 / 0评论 2020-01-01

linux 重定向命令

标准输入,输出和错误---------------------------------文件文件描述符---------------------------------输入文件—标准输入 0输出文件—标准输出 1错误输出文件—标准错误 2---------

GodLong 0喜欢 / 0评论 2013-03-29

SSO单点登录、跨域重定向、跨域设置Cookie、京东单点登录实例分析

最近在研究SSO单点登录技术，其中有一种就是通过js的跨域设置cookie来达到单点登录目的的，下面就已京东商城为例来解释下跨域设置cookie的过程。可以看到返回一个重定向的Response，而且是跨域的重定向，由于发起的是跨域的jsonp请求，所以浏览

BluewineY 0喜欢 / 0评论 2014-07-11

F5负载均衡WAS重定向端口问题

基于F5 WAS负载均衡，可直接通过IP访问首页http:XXX.com，点击具体菜单时，链接中自动匹配显示具体的端口信息http:XXX:PP.com，且无法访问。

Nireus 0喜欢 / 0评论 2014-05-27

Django框架之给客户端返回数据

在Django框架中，我们可以通过视图函数返回响应对象来给客户端返回指定的数据。from django.http import HttpResponse, JsonResponse# 自定义响应对象。在Django框架中我们可以利用返回JSON类型的对象来

tuxlcsdn 0喜欢 / 0评论 2019-12-26

Python高级应用程序设计

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：。　　受爬虫中反爬策略影响，为了能够顺利抓取不影响本机ip的情况下选择使用代理的方式进行数据的抓取。　　抓取不同城市的岗位要求信息进行分析。　　我们目的是对北上广深杭5个城市进行岗位需求统计，来

winmeanyoung 0喜欢 / 0评论 2019-12-25

shell中可能经常能看到：>/dev/null 2>&1

1 表示stdout标准输出，系统默认值是1，所以">/dev/null"等同于"1>/dev/null". 1>/dev/null 首先表示标准输出重定向到空设备文件，也就是不输出任何信息到终端，

酷云的csdn 0喜欢 / 0评论 2019-12-19

18 shell 重定向以及文件描述符

Linux Shell重定向分为两种，一种输入重定向，一种是输出重定向；从字面上理解，输入输出重定向就是「改变输入与输出的方向」的意思。不过，在Linux中，标准输入设备指的是键盘，标准输出设备指的是显示器。文件描述符是内核为了高效管理已被打开的文件所创建

SciRui 0喜欢 / 0评论 2019-12-19

Web核心之Response对象

通过response的输出流，从服务器往浏览器输出数据。不能使用request对象来共享数据。如果在页面跳转时，需要携带目标页面才会使用到的数据，也就是说需要用request携带数据，此时使用转发。比较的是两个资源的url的相对位置关系。如果项目中会使用

wq0 0喜欢 / 0评论 2019-12-19

第四章返回结果的HTTP状态码

HTTP状态码负责表示客户端HTTP请求的返回结果、标记服务端的处理是否正常、通知出现的错误等。　　3XX响应结果表明浏览器需要执行某些特殊的处理以正确处理请求。临时性重定向，表示资源已被分配了新的URI，希望本次能使用新的URI访问。表示请求的资源存在另

似水流年梦 0喜欢 / 0评论 2019-12-20

Shell基础、输入输出重定向

Shell是命令解释器，把我们写的命令转化为内核能够识别的机器语言，然后内核调用硬件来完成相应的操作。操作完成后，内核操作结果返回给内核，Shell再将机器语言翻译为我们能够看懂的字符。Shell是一种功能强大的脚本语言，易编写、易调试、功能性强，Shel

liushun 0喜欢 / 0评论 2019-12-17

linux I/O重定向及管道

可以禁止>的覆盖行为，使用set -C。只在当前会话有效。set +C恢复覆盖行为。如果命令产生的是正常输出，则重定向到/tmp/is1；如果产生的是错误输出，则把错误输出重定向到正常输出。不支持文件作为参数的命令，必须明确使用<，才能够重定向

安得情怀似旧时 0喜欢 / 0评论 2019-12-16

Shell编程—呈现数据

文件描述符是一个非负整数，可以唯一标识会话中打开的文件。每个进程一次多可以有九个文件描述符。出于特殊目的，bash shell保留了前三个文件描述符：。STDERR文件描述符代表shell的标准错误输出。为了避免错误信息散落在输出文件中，相较于标准输出，

liushun 0喜欢 / 0评论 2019-12-15

Linux编程基命令行础，码农们需要知道的一些Bash常识

Linux越来越重要，对于开发者来说学习必要的bash技术必不可少，对运维来说更是如此。学习shell可以参考很多学习材料和图书供大家可以参考。本文给大家分享常用的shell技巧分享给大家。脚本所在文件启动顺序很重要，下面这个图显示了Linux系统个初始化

zfyaixue 0喜欢 / 0评论 2019-12-09

Flask 重定向问题：若没有对URL进行安全验证

一个fooo视图，一个barrr视图。通过点击视图里的链接，进行一些操作之后，返回fooo或barrr路由。链接的相对URL：/do_somethinggg?

bestallen 0喜欢 / 0评论 2019-12-07

shell脚本编程之变量简介及脚本执行过程

编译型语言，没有额外的处理逻辑，属于强类型语言；脚本型语言，可以有解释器控制；所以，可以是弱类型语言；要想内核能够读懂脚本，需要内核开启脚本解释器，添加shebang机制；

insularisland 0喜欢 / 0评论 2019-12-04

《Linux命令行与shell脚本编程大全》第十四章学习笔记

对于终端界面来说，标准输入是键盘。代表标准错误输出。默认情况下，STDOUT文件描述符和STDERR文件描述符指向同样的地方，即显示器。比如我们要恢复标准输出，基本的思路就是，使用一个文件描述符定向到标准输出，然后再把标准输出定向到其他地方，比如文件。当想

yoshubom 0喜欢 / 0评论 2013-08-21

Shell: /dev/null 2>&1详解

2>&1 接着，标准错误输出重定向等同于标准输出，因为之前标准输出已经重定向到了空设备文件，所以标准错误输出也重定向到空设备文件。3,/dev/zero文件代表一个永远输出 0的设备文件，使用它作输入可以得到全为空的文件。因此可用来创建新文

CARBON 0喜欢 / 0评论 2013-09-20