分布式爬虫

亦碎流年 2020-06-09

分布式爬虫介绍

什么是分布式爬虫？

分布式爬虫是将多台电脑构建成一个机群，然后将爬虫程序部署在机群内的每台电脑上进行执行爬取任务，最终将所有的数据进行

分布式爬虫的作用

提高爬取效率

分布式爬虫的简单实现

由于原生scrapy的五大组件的不能实现共享，数据无法整合，所以必须通过scrapy和scrapy_redis组件结合进行实现

Scrapy_redis组件

作用：

给原生scrapy框架提供可以被共享的管道和调度器

实现流程

1、基于CrawlSpider创建一个项目：爬取阳光网信息

2、修改爬虫文件：

导包 from scrapy_redis.spiders import RedisCrawlSpider ，让爬虫类继承” RedisCrawlSpider“类
注释 allowed_ddomainx和 start_urls，添加新属性： redis_key = "name" # name为被共享的调度器队列的名称
完成数据解析代码编写

3、修改配置文件：settings.py

设置管道类为可以被共享的管道，即scrapy_redis中的管道类 ITEM_PIPELINES = { ‘scrapy_redis.pipelines.RedisPipeline‘:300 ,}
设置调度器：

# 增加一个去重容器配置,作用：使用Redis的Set集合存储请求的数据,从而实现去重数据的持久化
DUPEFILTER_CALSS = "scrapy_redis.dupefilter.REPPDupeFilter"

# 使用scrapy_redis的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置调度器是否持久化，即爬虫结束后，是否清除Redis中的请求队列和去重指纹数据，为True时，表示不再对爬取过的数据进行爬取
SCHEDULER_PERSIST = True

4、配置redis的配置文件: redis.conf

# 关闭ip访问限制
#bind 127.0.0.1 ::1

# 关闭保护模式  yes:其他客户端只能读取不能写入数据   no：可读可写
protected-mode no

5、启动redis-server

redis-server 配置文件

scrapy_redis组件安装： pip install scrapy_redis

由于我们需要使用scrapy_redis组件的实现共享管道和调度器，所以需要继承scrapy_redis中的” RedisCrawlSpider“类

from scrapy_redis.spiders import RedisCrawlSpider
class FbsSpider(RedisCrawlSpider):
    pass

将起始url和域名列表进行注释，添加参数：

# allowed_domains = [‘www.xxx.com‘]
    # start_urls = [‘http://www.xxx.com/‘]
    redis_key = "sun"  # sun为任意设置

: 亦碎流年

相关推荐

Redis中的String类型及使用Redis解决订单秒杀超卖问题

本系列将和大家分享Redis分布式缓存，本章主要简单介绍下Redis中的String类型，以及如何使用Redis解决订单秒杀超卖问题。Redis中5种数据结构之String类型：key-value的缓存，支持过期，value不超过512M。Redis是单线

聚合室 0喜欢 / 0评论 2020-11-16

Redis服务之高可用组件sentinel详解

有没有这样的一组件帮我们对master做实时的监控，一旦发现master宕机就提升一个slave当选新的master，如果原master还有其他slave，将其他slave都从属于新的master；除此之外它还应该让系统在发生切换master时触发报警通知

wera00 0喜欢 / 0评论 2020-08-17

Redis 5.0.9配置哨兵模式实现主从切换

　　准备两台以上已经安装Redis的服务器并配置主从，这里以三台安装了Redis5.0.9的Centos 7 为例子。通过发送命令，让Redis服务器返回监控其运行状态，包括主服务器和从服务器。当哨兵监测到master宕机，会自动将slave切换成mast

GavinZhera 0喜欢 / 0评论 2020-08-15

一次教科书级别的Redis高可用架构设计实践

Redis Server 节点：每个节点有一主一从两个实例，多个节点组成一份完整的集群数据，其中每个节点只有主库对外提供服务，从库仅仅用于节点高可用、数据持久化及定时备份。Zookeeper 集群：由五个 zk 节点组成，Redis 集群配置变更后，通知客

有梦就能飞 0喜欢 / 0评论 2020-07-14

Redis 6.0 redis-cluster-proxy 说明

Redis3.0版本之后开始支持了Redis Cluster，Redis也开始有了分布式缓存的概念。关于Redis Cluster的相关说明，可以看之前的几篇文章：Redis Cluster 原理相关说明、redis-cli --cluster help说

oZaoHua 0喜欢 / 0评论 2020-07-08

一致性HASH算法在分布式应用场景使用

比如redis集群场景下，原本我们分3主3从部署。如果有一种算法，无论遇到扩容、缩容问题，最终受影响面足够小，即只有部分数据可能需要重新落DB，其他还是能正确找到对应缓存机器节点，那这是最好的。

Cheetahcubs 0喜欢 / 0评论 2020-07-05

数据分布算法：hash+ 一致性 hash + redis cluster 的 hash slot

hash 算法 -> 一致性 hash 算法 -> redis cluster 的 hash slot 算法。16379 端口号是用来进行节点间通信的，通过 cluster bus。cluster bus 的通信是用来进行故障检测，配置更新，故

isHooky 0喜欢 / 0评论 2020-07-04

主机Redis服务迁移到现有Docker Overlay环境

《Docker-compose搭建Redis高可用哨兵集群》，这里将Redis-Sentinel容器接入现有Docker Swarm overlay网络，规避Redis ClientApp访问不同网络的Redis-Sentinel引发的混乱。现有的应用程序

isHooky 0喜欢 / 0评论 2020-06-25

Redis介绍及安装

Memcached：适合多用户访问，每个用户少量的读写。Memcached：多核的缓存服务，更加适合于多用户并发访问次数较少的应用场景。

ZHANGYONGHAO0 0喜欢 / 0评论 2020-06-17

.net core Redis

/// <summary>/// Redis DB/// </summary>private readonly IDatabase _db;/// <summary>/// 分布式缓存/// </summary&g

ZHANGYONGHAO0 0喜欢 / 0评论 2020-06-16

redis集群

所有请求都请求哨兵集群，由哨兵集群去请求服务，当master挂掉后，会从slave选举一个作为master. redis集群是一个由多个主从节点群组成的分布式服务器群，它具有复制、高可用和分片特性。Redis集群不需要sentinel哨兵也能完成节点移除和

rongxionga 0喜欢 / 0评论 2020-06-14

Linux分布式缓存系统——Redis持久化+Sentinel哨兵模式+Redis集群

Redis是一个开源的使用C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。它通常被称为数据结构服务器，因为值可以是字符串、哈希、列表、集合和有序集合等类型。支持多种数据结构的存储，

loviezhang 0喜欢 / 0评论 2020-06-08

分布式系统--封装Redis消息队列--消息队列下的异步场景

主动把消息推给订阅者。数据实时要求高，用推。客户端发起一个请求，创建订单，创建完订单需要增加积分，然后发送短信，假设创建订单花费1s，增加积分花费1s，发送短信花费1s，实则花费了3s。如果在订单服务开启1个异步线程去处理发送短信服务，这样做会有下面的缺陷

MLXY 0喜欢 / 0评论 2020-05-25

Redis之自我学习

从官方的解释上，我们可以知道：Redis是基于内存，支持多种数据结构。一般用做于容器来存储临时数据，缓存的数据随着JVM销毁而结束。Map所存储的数据结构，缓存过期机制等等是需要程序员自己手写的。Redis一般用作于缓存，可以将缓存数据保存在硬盘中，Red

wqbala 0喜欢 / 0评论 2020-05-25

如何找百度云电影资源哦

本 Chat 让想了解集群的同伴，一步到位解决集群运用到项目中。网上的课程相对乱，问题比较多，跟着我的步骤一起来，很容易实现集群。网上的版本也相对不统一，没有说明版本，集群是 3.x 才可以，我这里使用 5.x 进行集群安装，希望大家同一版本。Redis

王道革 0喜欢 / 0评论 2020-05-25

30道Redis面试题，面试官能问的都被我找到了

因为是纯内存操作，Redis的性能非常出色，每秒可以处理超过 10万次读写操作，是已知性能最快的Key-Value DB。Redis的出色之处不仅仅是性能，Redis最大的魅力是支持保存多种数据结构，此外单个value的最大限制是1GB，不像 memcac

loviezhang 0喜欢 / 0评论 2020-05-19

Spring Cloud+Spring Boot+Mybatis+Redis+Rabbit MQ+微服务+分布式构建b2b2c电子商务

核心架构：Spring Cloud、Spring Boot、Mybatis、Redis、Rabbit MQ、微服务、分布式、电子商务核心思想：产品微服务、模块化、原子化、持续集成、分布式、集群部署开发模式：代码生成工具、驱动式开发模式、提高开发效率源码可加

isHooky 0喜欢 / 0评论 2020-05-15

三分钟快速搭建分布式高可用的Redis集群

当单机内存、并发、流量等遇到瓶颈的时候，可以采用这种Redis Cluster方案进行解决。白嫖小贴士：CRC16是一种高质量的哈希算法，可以使每个槽所映射的键通常比较均匀。

fsl 0喜欢 / 0评论 2020-05-12

三分钟快速搭建分布式高可用的Redis集群

当单机内存、并发、流量等遇到瓶颈的时候，可以采用这种Redis Cluster方案进行解决。白嫖小贴士：CRC16是一种高质量的哈希算法，可以使每个槽所映射的键通常比较均匀。批量操作键支持有限，仅支持具有相同槽的键进行批量操作。

fansenjun 0喜欢 / 0评论 2020-05-12

带你100% 地了解 Redis 6.0 的客户端缓存

近日 Redis 6.0.0 GA 版本发布，这是 Redis 历史上最大的一次版本更新，包括了客户端缓存、ACL、Threaded I/O 和 Redis Cluster Proxy 等诸多更新。我们今天就依次聊一下客户端缓存的必要性、具体使用、原理分

wangxiaoxue 0喜欢 / 0评论 2020-05-11

Redis Cluster集群数据分片机制原理

Redis Cluster 是 Redis 的分布式解决方案，在 3.0 版本正式推出，有效地解决了 Redis 分布式方面的需求。Redis Cluster 一般由多个节点组成，节点数量至少为 6 个才能保证组成完整高可用的集群，其中三个为主节点，三个为

VinsonHu 0喜欢 / 0评论 2020-04-15

什么是 redis 的雪崩、穿透和击穿？

　　关于Redis雪崩，穿透，击穿的问题，第一次接触名字有点陌生，听上去还比较相似，难以理解，过去做的很多项目中也都是用过Redis，但是第一次听到这几个关于Redis的坑还是一脸懵逼，直到这些坑真正显灵的时候才彻底意识到搞明白。大年初一，所有同事打开电脑

dongCSDN 0喜欢 / 0评论 2020-05-08

Redis 5 配置 Redis sentinel(哨兵模式)

先了解一下哨兵都做了什么工作：Redis 的 Sentinel 系统用于管理多个 Redis 服务器，该系统执行以下三个任务：

qingmuluoyang 0喜欢 / 0评论 2020-05-07

Docker实战之Redis-Cluster集群

Redis作为基于键值对的NoSQL数据库，具有高性能、丰富的数据结构、持久化、高可用、分布式等特性，同时Redis本身非常稳定，已经得到业界的广泛认可和使用。Redis Cluster是Redis的分布式解决方案，在 3.0 版本正式推出。同Mysql主

oZaoHua 0喜欢 / 0评论 2020-05-06

分布式缓存Redis+Memcached经典面试题和答案

Redis相比memcached有哪些优势？d、异步Ｉ/O 模型，使用libevent作为事件通知机制。而Redis的Key长度支持到512k。由于Redis只使用单核，而Memcached可以使用多核，所以平均每一个核上Redis在存储小数据时比Memc

middleware0 0喜欢 / 0评论 2020-05-06

28_在项目中重新搭建一套读写分离+高可用+多master的redis cluster集群

redis cluster: 自动，master+slave复制和读写分离，master+slave高可用和主备切换，支持多个master的hash slot支持数据分布式存储。redis cluster集群，要求至少3个master，去组成一个高可用，健

kaixinfelix 0喜欢 / 0评论 2020-04-20

Redis简介和5种数据结构

简单来说, Redis就是一个数据库, 只不过是非关系型数据库, 而且数据是存储在内存中的.因此Redis的速度也很快, 被广泛用于缓存方面. 同时也常被用来做分布式锁. Redis支持多种数据类型, 可以支持不同的场景应用.类似于Java中SortedS

manongxiaomei 0喜欢 / 0评论 2020-04-20

24_在项目中以经典的3节点方式部署哨兵集群

sentinel monitor mymaster 127.0.0.1 6379 2　　　　　　#哨兵监控的master。sentinel down-after-milliseconds mymaster 60000　　　　#master或者slave多少

憧憬 0喜欢 / 0评论 2020-04-18

redis分布式和mysql分布式/集群

目前的项目很少会采用单机架构了，一是因为单机性能有限，二是因为单机服务一旦故障整个系统就无法继续提供服务了。分布式数据库是在集中式数据库的基础上发展起来的，是计算机技术和网络技术结合的产物。分布式数据库是指数据在物理上分布而逻辑上集中管理的数据库系统。

枫叶上的雨露 0喜欢 / 0评论 2020-04-18

BATJ Java（1000题）高频面试题：MyBatis +并发编程+分布式+redis等

本文收集整理了各大厂常见面试题N道，你想要的这里都有内容涵盖：Java、MyBatis、ZooKeeper、Dubbo、Elasticsearch、Memcached、Redis、MySQL、Spring、Spring Boot、Spring Cloud、

亦碎流年 0喜欢 / 0评论 2020-04-16

BATJ Java（1000题）高频面试题：MyBatis +并发编程+分布式+redis等

本文收集整理了各大厂常见面试题N道，你想要的这里都有内容涵盖：Java、MyBatis、ZooKeeper、Dubbo、Elasticsearch、Memcached、Redis、MySQL、Spring、Spring Boot、Spring Cloud、

cnflat0 0喜欢 / 0评论 2020-04-16

Redis Cluster 集群数据分片机制

仅供个人学习参考之用,Redis Cluster 是 Redis 的分布式解决方案，在 3.0 版本正式推出，有效地解决了 Redis 分布式方面的需求。Redis Cluster 一般由多个节点组成，节点数量至少为 6 个才能保证组成完整高可用的集群，其

尹小鱼 0喜欢 / 0评论 2020-04-11

SpringBoot利用Redis管理分布式Session

<artifactId>spring-boot-starter-data-redis</artifactId>. <artifactId>spring-session-data-redis</artifactId&

Ashes 0喜欢 / 0评论 2020-03-28

redis如何实现高可用【主从复制、哨兵机制】

原创itcats_cn 最后发布于2018-09-05 21:07:27 阅读数 5135 收藏展开实现redis高可用机制的一些方法：保证redis高可用机制需要redis主从复制、redis持久化机制、哨兵机制、keepalived等的支持。redis

步行者 0喜欢 / 0评论 2020-03-26

Redis持久化方式

　　持久化主要是做灾难恢复、数据恢复，也可以归类到高可用的一个环节中去，比如你 redis 整个挂了，然后 redis 就不可用了，你要做的事情就是让 redis 变得可用，尽快变得可用。　　重启 redis，尽快让它堆外提供服务，如果没做数据备份，这时候

afanti 0喜欢 / 0评论 2020-03-25

Redis数据库简介与手工编译安装流程

本文从NoSQL诞生的由来引出Redis数据库，并对其简单介绍，然后进行Redis手工编译安装的流程演示，最后介绍Redis常用的命令工具。非关系型数据库的存储方式、存储结构以及使用场景都是完全不同的。随着网络发展，关系型数据库在应对海量数据以及高并发的网

fightgirl 0喜欢 / 0评论 2020-03-23

redis-其他应用

Codis 是一个分布式 Redis 解决方案, 对于上层的应用来说, 连接到 Codis Proxy 和连接原生的 Redis Server 没有明显的区别 , 上层应用可以像使用单机的 Redis 一样使用, Codis 底层会处理请求的转发, 不停机

afanti 0喜欢 / 0评论 2020-03-14

Redis集群分片原理及选举流程

如果Redis只用复制功能做主从，那么当数据量巨大的情况下，单机情况下可能已经承受不下一份数据，更不用说是主从都要各自保存一份完整的数据。在这种情况下，数据分片是一个非常好的解决办法。Redis的Cluster正是用于解决该问题。对于第二点，它的功能有点类

枫叶上的雨露 0喜欢 / 0评论 2020-03-07

python面试题:redis数据库

传统数据库遵循 ACID 规则。string类型是二进制安全的。意思是redis的string可以包含任何数据。string类型是Redis最基本的数据类型，一个键最大能存储512MB。

JasonYeung 0喜欢 / 0评论 2020-03-06

redis、memcached、mongoDB 对比

Mongodb和Memcached不是一个范畴内的东西。Mongodb是文档型的非关系型数据库，其优势在于查询功能比较强大，能存储海量数据。Mongodb和 Memcached不存在谁替换谁的问题。Memcached 和 Redis它们都是内存型数据库，数

大脸猫脸大 0喜欢 / 0评论 2020-03-03

2.redis概述

1、主要使用它作为缓存。

camhan 0喜欢 / 0评论 2020-02-21

初识redis

最近做的某个feature需要在很短的时间内上千万次请求其他部门的web服务，为了减少请求次数和提升系统响应速度决定采用cache来缓存数据。说到cache最出名的就是memcached和redis了，因为目前公司内用redis的项目用的更多，有专门的集群

wqbala 0喜欢 / 0评论 2020-02-20

Redis知识点总结

后续会继续更新。基于内存的分布式高性能key-value数据库。高性能：1.纯内存操作；2.单线程模型；分布式：1.默认16个数据库，初始默认使用零号数据库；2.redis支持分布式扩展；可以对一个已经带有生存时间的 key 执行EXPIRE命令，新指定

liuyong00 0喜欢 / 0评论 2020-02-20

Redis集群模式

full-mirror：全量镜像模式，单纯备份模式，各个节点数据相同，都包含了全量数据，仅主节点可写，保证了数据冗余和读的负载均衡。数据安全性高，横向扩展能力差，资源利用率不高。只有master能接收写命令，master和slave都可以接收读命令，实现读

杜引强 0喜欢 / 0评论 2020-02-20

分布式系统ID的生成方法之UUID、数据库、算法、Redis、Leaf方案

一般单机或者单数据库的项目可能规模比较小，适应的场景也比较有限，平台的访问量和业务量都较小，业务ID的生成方式比较原始但是够用，它并没有给这样的系统带来问题和瓶颈，所以这种情况下我们并没有对此给予太多的关注。所以这一次，我们看看大厂都是怎么分析和解决这种I

Hashxu 0喜欢 / 0评论 2020-02-05

Redis 知识点总结

Redis 是 Java 程序员在面试过程中绕不开的知识点，我们这篇文章对于 Redis 的知识点做一个总结。Redis 是使用 C 语言写成的，高性能的基于内存的 key-value 型数据库。Redis 会周期性将内存中的数据写入磁盘或者把修改操作写入

wqbala 0喜欢 / 0评论 2020-01-31

redis 持久化有几种方式？

redis 的持久化有哪几种方式？持久化机制具体底层是如何实现的？你必须得用 redis 的持久化机制，将数据写入内存的同时，异步的慢慢的将数据写入磁盘文件里，进行持久化。如果 redis 宕机重启，自动从磁盘上加载之前持久化的一些数据就可以了，也许会丢失

Cheetahcubs 0喜欢 / 0评论 2020-01-30

redis-相关面试技术

wangxiaoxue 0喜欢 / 0评论 2020-01-17

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫

　　　　- 不可以。　　　　　　其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。　　　　　　其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。- 3.1

枫叶上的雨露 0喜欢 / 0评论 2020-01-10