分布式爬虫部署基于scrapy和scrapy-redis

zhangll00 2020-07-05

如何实现分布式？

安装一个scrapy-redis的组件
原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式

为什么原生的scrapy不可以实现分布式？

调度器不可以被分布式集群共享
管道不可以被分布式集群共享

scrapy-redis组件的作用
可以给原生的scrapy框架提供可以被共享的管道和调度器

实现流程
	创建一个工程
	创建一个基于CrawlSpider的爬虫文件
	修改当前的爬虫文件
		1.导包：from scrapy_redis.spiders import RedisCrawlSpider
		2.将 start_urls和allowed_domains注释
		3.添加一个新的属性：redis_key＝＇commonality＇ #这是可以被共享的调度器队列名称
		4.start_url和redis_key比较类似，redis_key把起始url直接放到队列中
		4.编写数据解析相关的代码
		5.将当前爬虫文件的父类修改成RedisCrawlSpider
	修改配置文件settings
                # 指定使用可以被共享的管道
                ITEM_PIPELINES = {
                        ‘scrapy_redis.pipelines.RedisPipeline‘: 400
                 }
                 #指定调度器
                   # 增加了一个去重容器类的配置，作用使用Redis的set集合来存储请求的指纹数据
                   DUPEFILTER_CLASS = ‘scrapy_redis.dupefilter.RFPDupeFilter‘
                 # 使用scrapy-redis组件自己的调度器
                   SCHEDULER = "scrapy_redis.scheduler.Scheduler"
                 # 配置调度器持久化
                   SCHEDULER_PERSIST = True
		指定使用可以被共享的管道
	指定redis服务器
		 REDIS_HOST　＝　＇＇redis远程服务器id
		 REDIS_PORT　＝　6379
	ｒｅｄｉｓ相关操作配置
		注释掉redis.window.conf里的bind 127.0.0.1注释
		将yes改为no，　protected-mode no
		结合配置文件 启动ｒｅｄｉｓ
	执行工程
	　　－scrapy runspider 爬虫文件名
	向调度器的队列中放入一个起始的ｕｒｌ
	　　－调度器的队列在ｒｅｄｉｓ的客户端中
		－　ｌｐｕｓｈ　ｒｅｄｉｓ＿ｋｅｙ的值　网址

: zhangll00

相关推荐

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，

andrewwf 0喜欢 / 0评论 2020-11-11

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

你知道最快的方法是什么吗？一分钟真的能开发好或者修改出一个分布式爬虫吗？话不多说，先让我们看看怎么实践，再详细聊聊细节。如果你没有所需要的运行条件，你可以启动两个 Docker 镜像进行测试 :. 如果你有一个现成的爬虫，可以跳过这个 Step，直接到

Arvinzx 0喜欢 / 0评论 2020-10-28

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 0喜欢 / 0评论 2020-10-27

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇），没来得及上车的小伙伴可以戳进去看看，今天继续上篇的内容往下进行。至此，关于Xpath表达式的具体应用教程先告一段落。

paleyellow 0喜欢 / 0评论 2020-10-25

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

上一篇文章我们讲述了网页结构和Xpath表达式语法知识，感兴趣的小伙伴可以戳这篇文章：网页结构的简介和Xpath语法的入门教程。我们了解到Xpath表达式最好是通过自己进行网页分析和针对性的选取唯一性的标签进行定位，可以提高提取效率，而且还不容易出错。

baifanwudi 0喜欢 / 0评论 2020-10-25

手把手教你进行Scrapy中item类的实例化操作

首先去parse_detail函数下对其进行实例化，实例化的方法也十分简单，如下图所示。其中，目标字段可以参考items.py中定义的item，这样可以加快填充的速度。

heyboz 0喜欢 / 0评论 2020-10-21

如何改造 Scrapy 从而实现多网站大规模爬取？

Scrapy 框架默认是用来开发定向爬虫的。一般情况下，在 spiders 文件夹下面的一个.py 文件对应了一个网站的爬取。但还有另外一种爬虫，它不会拘泥于提取页面上的特定文字，而是关注如何并行爬取非常多的网站。这种爬虫，一般是从若干个种子网址开始爬。但

wumxiaozhu 0喜欢 / 0评论 2020-10-16

二十六、Scrapy自定义命令

from scrapy.commands import ScrapyCommand??class Command(ScrapyCommand): requires_project = True?

ZHANGRENXIANG00 0喜欢 / 0评论 2020-07-27

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 0喜欢 / 0评论 2020-07-05

8_3 scrapy模拟登录人人网

在这个方法中发送post请求，没有重写这个方法基类Spider中的方法 start_request()默认是发送get请求。

javaraylu 0喜欢 / 0评论 2020-06-28

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 0喜欢 / 0评论 2020-06-28

Scrapy爬虫

二、Scrapy爬虫框架结构

ZHANGRENXIANG00 0喜欢 / 0评论 2020-06-27

用scrapy爬取图片

detail_list = response.xpath(‘//*[@id="main"]/div[3]/ul/li/a/@href‘).extract(). yield scrapy.Request(detail_url, callb

Catastrophe 0喜欢 / 0评论 2020-06-26

scrapy基本知识

Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine，Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载

Catastrophe 0喜欢 / 0评论 2020-06-26

Python爬虫 - scrapy框架的基本操作

scrapy异步的爬虫框架。c. 进入下载目录，执行 pip3 install Twisted?只可以将parse方法的返回值存储到指定后缀的文本文件中。# #xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要

fangjack 0喜欢 / 0评论 2020-06-25

十八、scrapy内置媒体（图片和文件）下载方式

　　MediaPipeline会为当前安排好的要下载的图片保留一个内部队列，并将那些到达的包含相同图片的项目连接到该队列中，避免多次下载几个item共享的同一图片。　　3、当item进入filespipeline,file_urls组内的url将被Scra

andrewwf 0喜欢 / 0评论 2020-06-16

Scrapy爬虫

　　Scrapy是一个常用的爬虫框架，可以提升爬虫的效率，从而更好的实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request、下载器、解析器和twisted等。定义一个item容器，item容器是存储

qyf 0喜欢 / 0评论 2020-06-14

Python Scrapy图片爬取原理及代码实例

在管道文件对图片进行下载和持久化存储。配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径。#对某一个媒体资源进行请求发送。#item就是接收到的spider提交过来的item. #制定媒体数据存储的名称。#将item传递给

荒乱的没日没夜 0喜欢 / 0评论 2020-06-14

scrapy 详解

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取。Scrapy 使用了Twisted[‘tw?st?d]异步网络框架。def parse: # 数据提取方法，处理start_url地址中的

MiracleZhao 0喜欢 / 0评论 2020-06-13

scrapy安装及入门使用

fetch Fetch a URL using the Scrapy downloader. view Open URL in browser, as seen by Scrapy. Use "scrapy &l

wumxiaozhu 0喜欢 / 0评论 2020-06-13

彻底搞懂Scrapy的中间件（二）

在上一篇文章中介绍了下载器中间件的一些简单应用，现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。对于一些很麻烦的异步加载页面，手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium和ChromeDriver

Catastrophe 0喜欢 / 0评论 2020-06-12

scrapy

setting文件设置实现保存在json文件中。LOG_DATEDORMAT 日志日期的格式。用来获取内存的使用情况。可以使用文本文件。csv文件json文件 jsonlines文件数据库文件云存储。每一行都要进行 “#-*-coding：utf-8

Catastrophe 0喜欢 / 0评论 2020-06-11

分布式爬虫

什么是分布式爬虫？分布式爬虫是将多台电脑构建成一个机群，然后将爬虫程序部署在机群内的每台电脑上进行执行爬取任务，最终将所有的数据进行。由于原生scrapy的五大组件的不能实现共享，数据无法整合，所以必须通过scrapy和scrapy_redis组件结合进行

亦碎流年 0喜欢 / 0评论 2020-06-09

scrapy中间件和selenium在scrapy中的使用

注意点：不光在process_request方法中使用，在process_exception方法中也要使用

ZHANGRENXIANG00 0喜欢 / 0评论 2020-06-09

三步将一个普通的scrapy爬虫变为分布式爬虫

将爬虫的start_urls删掉。这个redis_key是为了以后再redis中控制爬虫启动的。爬虫的第一个url，就是redis中通过这个发送出去的。需要注意的是在1步骤中，scrapy runspider [爬虫名字]，其中[爬虫名字]不是name所指

YZR 0喜欢 / 0评论 2020-06-02

Scrapy项目实战：爬取某社区用户详情

[{‘domain‘: ‘segmentfault.com‘, ‘httpOnly‘: False, ‘name‘: ‘PHPSESSID‘,‘value‘: ‘1550066940‘},‘name‘: ‘_gat‘, ‘path‘: ‘/‘, ‘secu

Catastrophe 0喜欢 / 0评论 2020-05-30

scrapy中使用selenium+webdriver获取网页源码，爬取简书网站

由于简书中一些数据是通过js渲染出来的，所以通过正常的request请求返回的response源码中没有相关数据，# 加载chrome驱动，若chromedriver.exe文件和python.exe 在相同目录下，可以省略executable_path=

andrewwf 0喜欢 / 0评论 2020-05-30

scrapy持久化存储

管道文件中一个管道类对应的是将数据存储到一种平台，所以需要在pipelines.py文件中定义新的管道类

MiracleZhao 0喜欢 / 0评论 2020-05-29

Scrapy（五）：CrawlSpider的使用

callback: 定制处理响应的回调函数, 注意callback的写法，和普通spider的写法不一样，普通 callback=self.parse. follow是有默认值的，如果有callback，默认为False，如果没有callback，默认为T

wumxiaozhu 0喜欢 / 0评论 2020-05-26

scrapy下载中间件(downloader middleware)和蜘蛛中间件(spider middleware)

首先我们看下scrapy官网提供的新结构图，乍一看这画的是啥啊，这需要你慢慢的理解其原理就很容易看懂了，这些都是一个通用爬虫框架该具有的一些基本组件。上一篇博客说了项目管道，可以看到中间的引擎将item传递给了项目管道，也就是让项目管道来处理抓取到的内容。

MiracleZhao 0喜欢 / 0评论 2020-05-19

新手必学Python爬虫之Scrapy框架案例详解

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy Engine(引擎): 负责Spi

javaraylu 0喜欢 / 0评论 2020-05-16

【python爬虫】scrapy入门8:发送POST请求

scrapy基础知识之发送POST请求与使用 FormRequest.from_response() 方法模拟登陆 https://blog.csdn.net/qq_33472765/article/details/80958820 scrapy框架

hilary0 0喜欢 / 0评论 2020-05-15

pycharm无法安装第三方库的问题及解决方法以scrapy为例(图解)

但是在pycharm中配置anaconda环境之后再从anaconda下载安装你所需要的库就可以diy完决你的问题了。把project Interpreter复选框里面的地址换成你安装的anaconda下的python.exe的地址。接下来就是非常重要的了

疯狂程序员 0喜欢 / 0评论 2020-05-09

三、Scrapy Shell

　　Scrapy终端是一个交互终端，可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看它们的工作方式，方便在爬取的网页中提取数据。　　如果安装了 IPython ，Scrapy终端将使用 IPython 。IPyt

ZHANGRENXIANG00 0喜欢 / 0评论 2020-05-11

【python爬虫】scrapy入门6:Scrapy中runspider和crawl的区别

命令：scrapy runspider myspider.py 等同于 pyhtonmyspider.py

fangjack 0喜欢 / 0评论 2020-05-08

Scrapy数据解析和持久化

c. 进入下载目录，执行 pip3 install Twisted?- 5.在管道类中的process_item方法负责接收item对象，然后对item进行任意形式的持久化存储。- 如果管道文件中定义了多个管道类，爬虫类提交的item会给到优先级最高的管道

andrewwf 0喜欢 / 0评论 2020-05-08

python爬虫：scrapy自定义item

item[‘body‘]=response.xpath("//div[@class=‘xx‘]/text()").get()

Catastrophe 0喜欢 / 0评论 2020-05-07

scrapy爬虫部分

yield scrapy.Request(url=original_url,callback=self.parse_info,dont_filter=True#防止parse_info不回调,meta={‘management_info‘:manageme

javaraylu 0喜欢 / 0评论 2020-05-05

爬虫scrapy框架介绍

# callback：回调函数。回调进入某个函数。scrapy genspider 爬虫名域名 #创建爬虫 ps:域名 baidu.com. title_list = response.xpath() --> 其获得的结果为: selec

Catastrophe 0喜欢 / 0评论 2020-05-01

Scrapy学习-（1）

只需要在cmd运行pip install scrapy就可以自动安装。用scrapy-h检验是否成功安装。Scrapy部署一个简单的爬虫库，是一个爬虫框架。此外和requests库相比，Scrapy库适合大型爬虫，适合网站爬虫。Scrapy框架有几个主要的

sunzhihaofuture 0喜欢 / 0评论 2020-04-22

python学习之Scrapy爬虫框架

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。?Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、si

pengkunstone 0喜欢 / 0评论 2020-04-21

scrapy源码解读（二）命令行工具

scrapy的命令分为全局命令和项目命令。顾名思义，全局命令是不管什么时候都能使用，项目命令只能用于具体已存在的项目上。以上为scrapy命令行工具的基本介绍，不明白的请对具体命令自行百度。如有错误之处还请指正，scrapy源码解读系列文章会一直更新。de

andrewwf 0喜欢 / 0评论 2020-04-20

scrapy发送post请求

重写父类中的一个方法：该方法默认可以对start_urls列表中的元素进行get请求的发送

MiracleZhao 0喜欢 / 0评论 2020-04-19

scrapy抓取校花网图片

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=‘utf-8‘). hxs = Selector(response=response).xpath("//div[@class=‘

Catastrophe 0喜欢 / 0评论 2020-04-17

Python爬虫 ---scrapy框架初探及实战！

安装scrapy框架最繁琐的地方在于要安装很多的依赖包,若缺少依赖包，则scrapy框架的安装就会报错。Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

MiracleZhao 0喜欢 / 0评论 2020-04-16

Python爬虫 ---scrapy框架初探及实战

安装scrapy框架最繁琐的地方在于要安装很多的依赖包,若缺少依赖包，则scrapy框架的安装就会报错。Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、

wumxiaozhu 0喜欢 / 0评论 2020-04-16

scrapy框架的初始

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。进入下载目录，执行 pip3 insta

Catastrophe 0喜欢 / 0评论 2020-04-15

小说免费看！python爬虫框架scrapy 爬取纵横网

cmd命令行切换到工作目录创建scrapy项目两条命令 scarpy startproject与scrapy genspider 然后用pycharm打开项目。New Scrapy project ‘zongheng‘, using template d

Catastrophe 0喜欢 / 0评论 2020-04-14

cnblogs 博客爬取 + scrapy + 持久化

sql = ‘‘‘insert into cnb values ‘‘‘

Catastrophe 0喜欢 / 0评论 2020-04-11