scrapy爬取Drupal网站，提示404错误

Linjunhan 2019-07-01

最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊，在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。
然后我的目标网站是个drupal做的。分页抓取的时候，首页是正常的，爬取第二页的时候，大概率是抛错提示：404，要么就是给我返回了一些脏数据。

这个网站还真是老谋深算啊。然后我仔细分析了下网站的请求头。然后加上了如下两条，请求就正常了：

request.headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
request.headers['cache-control'] = 'no-cache'

看来还是得注意请求头的细节。

: Linjunhan

相关推荐

SpringBoot入门二十五,默认的404错误页面引入css和js文件

Springboot默认的404,500等页面的位置在static的error中,可以直接访问,无需单独编写映射器。如果我们想美化一下这些错误提示页面,那么static下面css中的文件是不能直接饮用的,因为根据错误发生时路径的层级不同,错误页面的层级也会

csstpeixun 0喜欢 / 0评论 2020-06-28

http协议中各个响应状态返回值（200、400、404、500等）的含义

100：客户端必须继续发出请求。201，提示知道新文件的URL。206，服务器已经完成了部分用户的GET请求。301，本网页被永久性转移到另一个URL。303，建议用户访问其他URL或访问方式。401，请求未经授权。402，保留有效ChargeTo头响应。

88407013 0喜欢 / 0评论 2020-06-16

Django 自定义错误页面 403 404...

　　在templates文件夹下面创建自定义的错误页面。from app01 import views # 导入views页面

Dreamya 0喜欢 / 0评论 2020-06-09

IIS 服务器下载apk文件报404错误的解决方法

最近在使用IIS作为服务器的时候，apk文件已经上传到服务器上去了，但是无法下载，报404错误，截图如下：。最后测试，问题解决。

蓝天梦 0喜欢 / 0评论 2020-01-25

7、jsp在xml中设置映射后，css失效以及跳转网页404问题

在xml中设置管理界面得映射后，管理界面css样式不显示，以及原来可以跳转到的页面404.无论你的jsp在哪里，只要在xml设置了映射，那么他所在得相对路径就是虚拟路径的根目录下，找css和跳转相对路径都应该注意这一点。跳转页面得话，因为我需要来回进行跳转

lanzhusiyu 0喜欢 / 0评论 2019-12-30

404页面对网站来说绝对是有益无害的观点说明

有些站长可能会觉得自己的网站基本没有错误页面，所以说404页面属于可有可无的角色，其实并不见得。有时候网上的任何地方都有可能出现一些错误的URL路径指向你的网站，这些并不受我们自身的控制，所以合理的404页面可以让这些错误的URL变的有价值。从另外一

霸王棍 0喜欢 / 0评论 2011-05-12

什么？又是404！趣图助你理解HTTP状态码

被请求的资源已被永久移动位置；302—请求的资源现在临时从不同的 URI 响应请求；被请求的资源必须通过指定的代理才能被访问；该状态码是为了将来可能的需求而预留的，用于一些数字货币或者是微支付；406—不可接受的。由于和被请求的资源的当前状态之间存在冲突，

88407013 0喜欢 / 0评论 2017-09-19

Nginx自定义404错误页面并返回404状态码

对于Apache的404错误页面自定义设置网上有很多相关教程，难度也不大。今天主要讲下Linux系统下Nginx配置404错误页面，网络上。也有不少的相关文章，不过返回的状态码是200。搜索引擎抓取到错误页面的时候，发现返回的是200，他就认为这是一个正常

麦当劳 0喜欢 / 0评论 2011-12-15

301、404、200、304等HTTP状态

如果某项请求发送到您的服务器要求显示您网站上的某个网页，服务器将会返回HTTP状态码响应请求。此状态码提供关于请求状态的信息，告诉Googlebot关于您的网站和请求的网页的信息。

yanghan 0喜欢 / 0评论 2011-09-15

404页面该怎么做？

404页面的目的是：告诉浏览者其所请求的页面不存在或链接错误，同时引导用户使用网站其他页面而不是关闭窗口离开。很多开源系统包括CMS系统、Blog系统等不提供404页面或提供的404页面并未达到SEO的要求，这让网站的权威性大打折扣。404页面该达到怎么样

wawaboss 0喜欢 / 0评论 2012-04-10

nginx系列(五)关于错误页面的配置

proxy_set_headerX-Real-IP$remote_addr;

fenghuoliuxing0 0喜欢 / 0评论 2014-01-07

集成Shiro后当遇到404错误时会丢失session

String msg = "sessionId cannot be null when persisting for subsequent requests.";Cookie template = getSessionIdCookie(

yxlnum 0喜欢 / 0评论 2014-01-05

tomcat启动时报Error listenerStart错误，访问web服务时报HTTP Status 404错误

tomcat启动时报ErrorlistenerStart错误，访问web服务时报HTTPStatus404错误，导致页面无法正常访问或其他问题出现。但作用出现了偏差。用来监测jar包或者配置文件信息是否完整正确的，所以，最好的解决方法是查看tomcat的日

xyc 0喜欢 / 0评论 2012-08-29

eclipse中配置tomcat 启动正常访问报404

1、eclipse中配置好tomcat服务器后，启动tomcat查看控制台信息显示启动成功，

89407119 0喜欢 / 0评论 2012-06-04

分享五个404页面模板超好看的404页面你的网站离不了 seo优化404

一个完整的网站离不开一个好的404页面，404页面不光是让你的网站美观，它对SEO的作用也很大，你想一下如果用户打开你的网站，输入一个不存在的风址，如果没有404直接就报错了，有了404就能打开一个美观的页面，404页面对网站用户的体验非常大。今天给大家分

lwly 0喜欢 / 0评论 2019-06-27

web开发中常见错误对应的解释(404,505)

1**：请求收到，继续处理。2**：操作成功收到，分析、接受。3**：完成此请求必须进一步处理。4**：请求包含一个错误语法或不能完成。5**：服务器执行一个完全有效请求失败。101——客户要求服务器根据请求转换HTTP协议版本。201——提示知道新文件的

MusicPeng 0喜欢 / 0评论 2013-07-19

HTML状态码收集（301,404,500等）

HTTP状态码是用以表示网页服务器HTTP响应状态的3位数字代码。HTTP状态码一共分为五类。状态码的第一个数字代表了响应的五种状态之一。这些状态码被分为五大类： 100-199 用于指定客户端应相应的某些动作。300-399 用于已经移动的文件并且常被包

wodetian 0喜欢 / 0评论 2019-06-21

404 错误页面转自百度空间

如果想自定义错误页面，不需要修改该类。Servlet规范声明了相关的API，只需要在每个web应用的web.xml里定义。可按照错误类型、错误代码配置。注意错误页面必须以“/”开头，这样任何path的404错误页面及exception错误都会映射到这两个文

zmosquito 0喜欢 / 0评论 2012-11-07

HTTP状态码 403 404 500 等

请求的HTTP版本号。100Continue初始的请求已经接受，客户应当继续发送请求的其余部分。200OK一切正常，对GET和POST请求的应答文档跟在后面。201Created服务器已经创建了文档，Location头给出了它的URL。202Accepte

HAcSeeking 0喜欢 / 0评论 2012-09-14

你眼中的404页面未必返回404状态码 404页面如何正确设置

很多站长在做网站诊断的过程中，往往会查看网站有没有做404页面，一般判断的方法很简单，就是在搜索引擎地址栏随便输入一个该域名错误链接，然后看有没有404页面。404页面存在的意义就是告诉浏览者和搜索引擎所请求的页面不存在或是链接错误，你这检查只能说明用户看

liaochengseo 0喜欢 / 0评论 2014-07-04

网站设计中如何详细的自定义404错误页面的制作和设置

正确设置的自定义404错误页面，不仅应当能够正确地显示，同时，应该返回“404”错误代码，而不是 “200”或“302”。尽管无效链接可能是多种形式的URL，但当发生404访问错误时，WEB服务器会自动将其转到自定义的当404错误页中，这跟URL的形似没有

gzweihuo 0喜欢 / 0评论 2014-01-11

在spring中加入hibernate后页面404

description The requested resource () is not available.

阳光丶不锈 0喜欢 / 0评论 2012-08-08

常见HTTP状态说明(301,304,200,404)

301、404、200、304等HTTP状态，代表什么意思?因此，比较清楚详细的了解http状态码的具体含义，对于一个网站站长来说，这是很有必要俱备的网站制作基础条件。如果某项请求发送到您的服务器要求显示您网站上的某个网页，服务器将会返回 HTTP 状态码

raksmart0 0喜欢 / 0评论 2011-12-05

404处理 PHP .htaccess及apache配置

在PHP网站开发中，在用户访问网站出错、找不到页面时，会出现HTTP 404,403错误信息，为了提高用户体验，我们需要自定义404、403错误页面，提示用户下一步操作或自动跳转至合适的访问页面。自定义错误页面404、403的方法，主要通过apache或者

yixu0 0喜欢 / 0评论 2011-08-30

Nginx设置404页面

Nginx访问一个静态的html 页面，当这个页面没有的时候，Nginx抛出404，那么如何返回给客户端404呢？看下面的配置，这种情况下不需要修改任何参数，就能实现这个功能。# 定义错误页面码，如果出现相应的错误页面码，转发到那里。error_page

yongzhang 0喜欢 / 0评论 2018-08-24

Vue项目webpack打包部署到Tomcat刷新报404错误问题的解决方案

使用webpack打包vue后，将打包好的文件，发布到Tomcat上，访问成功，但是刷新后页面报404错。但是看完问题又来了，官方给出的解决方案中没有说tomcat下，怎么决解。你要在服务端增加一个覆盖所有情况的候选资源：如果 URL 匹配不到任何静态资源

Macuroon 0喜欢 / 0评论 2018-05-15

使用nginx error_page 对404 文件做冗余

源由：多个图片服务器图片有差异，可能会出现访问某一台服务器出现404，现在需要不管怎样访问都能访问到。当后端服务器的响应状态码大于等于400时，决定是否直接将响应发送给客户端，亦或将响应转发给nginx由error_page指令来处理。设定Nginx与服务

ICTbiubiu 0喜欢 / 0评论 2016-12-11

Jquery uploadify 多余的Get请求(404错误)的解决方法

在使用jquery uploadify时如果不设置button_image_url参数，就会出现一些多余的get请求，甚至报404的错误，这是该插件的一个bug，官方给出的解决方案如下：

sjz000 0喜欢 / 0评论 2019-04-29

django使用图片延时加载引起后台404错误

今天接到一个任务――解决终端满屏日志中的无用错误。django 会尽可能给你准确报出错误位置，但是一些复杂，深层次的错误它自带的错误日志有些不足了，日志多但是却无效。得此，我进而对这个页面进行跟踪，我尝试替换页面的做法，最终定位到一段 html 代码就会引

goupper 0喜欢 / 0评论 2017-04-18

Nginx实现404页面的几种方法(三种)

一个网站项目，肯定是避免不了404页面的，通常使用Nginx作为Web服务器时，有以下集中配置方式，一起来看看。Nginx访问一个静态的html 页面，当这个页面没有的时候，Nginx抛出404，那么如何返回给客户端404呢？看下面的配置，这种情况下不需要

yserver 0喜欢 / 0评论 2018-08-20

linux系统下部署项目访问报404错误的解决方法

碰到了一个比较奇怪的问题，我在linux系统上安装了一个tomcat服务器，我将一个项目部署到了这个服务器上，然后我去访问这个tomcat，访问成功：。暂时还没太明白这是什么问题，我又找了一个一样的项目，这次是可以访问的，具体原因还不清楚，本人觉得是文件权

qswlw 0喜欢 / 0评论 2017-12-11

NGINX服务器配置404错误页面转向的方法

如果碰巧网站出了问题，或者用户试图访问一个并不存在的页面时，此时服务器会返回代码为404的错误信息，此时对应页面就是404页面。如果后台用的是NGINX服务器，那么404页面的内容则为：404 Not Found. 在访问时遇到上面这样的404错误页面，我

FlywindMouse 0喜欢 / 0评论 2017-12-11

Ubuntu 安装 StartBBS 出错和解决办法

$1 last; # rewrite "^/(.*)$" /index.php last; # break;}. 之所以出现这个问题，是因为2.1中添加的那段配置的位置很关键，我之前将其放在 location / {…} 外，都导致

pittpakk 0喜欢 / 0评论 2013-10-08

Nginx 之自定义404错误页面

如果网站出了问题或者用户访问的页面不存在时，此时服务器会返回代码为404的错误信息，nginx默认的404页面是：。该指令用来决定是否把客户端转向4xx和5xx错误页面，

MY进修之路 0喜欢 / 0评论 2013-09-18

Nginx实现404页面的方法小结

Nginx访问一个静态的html 页面，当这个页面没有的时候，Nginx抛出404，那么如何返回给客户端404呢？看下面的配置，这种情况下不需要修改任何参数，就能实现这个功能。# 定义错误页面码，如果出现相应的错误页面码，转发到那里。error_page

scottbing 0喜欢 / 0评论 2017-08-22

详细介绍通过配置Apache实现404页面替换

一般网站报404原因都是找不到资源，是服务器报错，Apache自定义了404输出，我们的目的是使用自定义的404.html去替换Apache的输出，针对Apache服务器：制作一个404页面，页面自己设计即可，命名为notfound.php，上传到网站根目

IT进行时 0喜欢 / 0评论 2019-04-19

thinkPHP5框架设置404、403等http状态页面的方法

本文实例讲述了thinkPHP5框架设置404、403等http状态页面的方法。分享给大家供大家参考，具体如下：。'app_debug' => false,然后在配置文件 config.php 中配置404等页面的模板路径：。<div clas

小周 0喜欢 / 0评论 2018-06-05

APACHE 自定义404错误页面设置方法

在httpd.conf中设置对目录开启。可是有时候当你用IE浏览的时候会发现，这玩意压根就不跳转，关键的地方就是这个html，如果404.html的小于512字节的话，那么IE会认为这个错误页面不够“友好”，会忽视掉的！httpd.conf中的这一部分,#

xtyygyihc 0喜欢 / 0评论 2017-03-25

Nginx中404页面的配置及AJAX请求返回404页面的方法

404页面基础配置404错误是WWW网站访问容易出现的错误。404错误页的设置对网站SEO有很大的影响，而设置不当，比如直接转跳主页等，会被搜索引擎降权拔毛。当搜索引擎获得了一个错误链接时，网站应该返回404状态码，告诉搜索引擎放弃对该链接的索引。而如果返

chaojilaji 0喜欢 / 0评论 2016-05-30

Asp.Net实现404页面与301重定向的方法

本文实例讲述了Asp.Net实现404页面与301重定向的方法。分享给大家供大家参考。从一种程度来讲301重定向与404页面没什么关系为什么我要拿到一起来讲来，因为都很简单实现，所在我就一起介绍一下了。如何在 asp.net 中设置404页面的方法记录下来

greatking 0喜欢 / 0评论 2019-04-12

Nginx服务器中配置404错误页面时一些值得注意的地方

换了VPS之后的某一天，在Google管理员工具控制台下看到了大量的"软404"错误，查找了一些资料之后发现是自己在Nginx下配置404页面的方法不对才导致了错误的产生，在此记录一下Nginx下正确的404页面配置方法。404是一个相

zhengwish 0喜欢 / 0评论 2016-01-06

Nginx下配置404错误引导页面

在Nginx下，配置404等http状态码的引导页面其他很简单，注意以下几点就行。1，创建自己的404页面，比如404.html或404.php。html和php都支持，但是必须确保页面的大小不能超过512字节，否则IE浏览器会用默认的错误页面。4，测试n

MY进修之路 0喜欢 / 0评论 2012-07-06

404页面 SEO中的一个不可或缺配角

在SEO学习的过程中，404页面是其中必须要掌握的一个SEO技巧，正确使用404页面对网站绝对是有益无害的。有些站长可能会觉得自己的网站基本没有错误页面，所以说404页面属于可有可无的角色，其实并不见得。从另外一个方面讲，一个设计不错的404页面也能让

jmrlba 0喜欢 / 0评论 2011-05-10

一个等号引发的血案（谈Nginx正确的404配置）

因为最近发生了一个重大问题，网站流量大幅下跌，跌了近80%了。这样使得查找问题的原因就变的难上加难。当时也查看了网站页面上的重写结果，没有发现哪里页面的链接出现过这种错误，那么百度里收录的这些页面从何而来？真的不得而知了。刚刚又查了一下，发现了一点蹊跷。

一张白纸 0喜欢 / 0评论 2019-04-10

Nginx中定义404页面并且返回404状态码的正确方法

前几天，一朋友出程序出问题却怎么查都没看出问题，于是让我帮它看看。其实它是ajax请求了很多个模板，然后把模板写到页面中。关键是所有请求的页面都是200正常状态码返回，表面上看没什么问题，实际上有些请求虽然返回200状态码，但给回的状态码是200。WebS

hexiao 0喜欢 / 0评论 2019-04-10

NGINX下配置404错误页面的方法分享

fastcgi_intercept_errors 语法: fastcgi_intercept_errors on|off 默认: fastcgi_intercept_errors off 添加位置: http, server, location 默认情况下

lihangorz 0喜欢 / 0评论 2012-11-27

asp.net网站的404错误页面的正确设置方法第1/2页

但是，Web服务器默认的404错误页面，无论Apache还是IIS，均十分简陋、呆板且对用户不友好，无法给用户提供必要的信息以获取更多线索，无疑这会造成用户的流失。搜索引擎通过HTTP状态码来识别网页的状态。当搜索引擎获得了一个错误链接时，网站应该返回40

caokuncom 0喜欢 / 0评论 2010-05-06

为Nginx自定义404，502错误页面的方法

} 记得404页面放在站点的跟目录下…

yserver 0喜欢 / 0评论 2010-12-20

tornado捕获和处理404错误的方法

Tornado 文档中提到但是这样只能捕获到handlers中列出的路径请求中的错误。如果只定义了一条规则，那么只能捕获到 /hello/other，这样的未定义路径请求，而像/he、/helloworld、/he/other这样的会直接显示Tornad

xiaoming00 0喜欢 / 0评论 2014-02-26