分布式爬虫架构设计与实现

fangjack 2020-02-22

由于scrapy框架需要更多的学习成本，还有分布式爬虫也需要redis来实现，调度方式也不是很符合业务要求，于是就自己设计了个分布式爬虫架构。
架构图如下：
分布式爬虫架构设计与实现

分布式爬虫架构设计与实现

爬虫的客户端为tornado编写的服务，爬虫管理器也是tornado编写的后台管理服务，主要功能：获取客户端的状态信息，爬虫进程数量，启动指定数量的爬虫进程，中断、重启爬虫，爬虫异常通知等。

爬虫进程与调度器间的请求非常频繁，所以使用socket长连，获取优先级高的队列，调度器的优先级算法，根据业务需求来编写。

消息队列使用rabbitmq，而不用redis，因为rabbitmq的消息确认机制，能够保证每个要爬的url都能被成功请求，不会因为某些异常而导致数据漏爬。

爬回的数据看业务需求，可以直接入库，或者放入Kafka。建议先不进行数据清洗，避免偶尔数据清洗错误时，又要重新爬取。

求offer：python后端，或者爬虫
欢迎一起交流学习

: fangjack

相关推荐

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 0喜欢 / 5评论 2020-11-12

13张图彻底搞懂分布式系统服务注册与发现原理

本文转载自微信公众号「爱笑的架构师」，可以通过以下二维码关注。在微服务架构或分布式环境下，服务注册与发现技术不可或缺，这也是程序员进阶之路必须要掌握的核心技术之一，本文通过图解的方式带领大家轻轻松松掌握。但在现实的创业环境中一个项目可能是九死一生，如果一开

地平线 0喜欢 / 15评论 2020-11-02

分布式系统的一些基础理论

在一年前我曾经有做过一些 Zookeeper 的相关总结，现在我们再把它捡回来，重新的把一些前因后果都扯得更加明白。我们先从服务部署架构的发展历程说起，其实无非就是集中式和分布式，集中式就是说，什么我都是由一台机器搞定的。分布式就是多台服务器联合

ptmagic 0喜欢 / 0评论 2020-10-31

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 0喜欢 / 0评论 2020-10-15

为什么分布式云是下一代云计算？Gartner分析师这样解释

云计算承诺企业将从以下几个关键方面中受益：一是将运行硬件和软件基础架构的责任和工作负载迁移到云提供商，二是利用云弹性的经济效益，三是从公有云供应商的创新中受益，当然不止这些。但是，有些企业却犹豫要完全迁移到公有云模型。企业保留对其运营部分的责任，但无法利用

jaryle 0喜欢 / 0评论 2020-10-13

程序员修神之路--它可能是分布式系统中最重要的枢纽

分布式系统为什么需要注册中心呢?注册中心利用现成的组件很好实现吗?看到标题你可能会鄙视一下，注册中心有是什么讲的。注册中心作为现在架构中的一个组件来说，确实很常见。微服务作为分布式系统最典型的一种表现形式，是最近几年最流行的概念之一。

深圳克林斯曼 0喜欢 / 0评论 2020-10-10

微服务分布式架构 springcloud flowable 工作流

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

koko0c 0喜欢 / 0评论 2020-09-26

一口气说出“分布式追踪系统”原理！

在微服务架构中，一次请求往往涉及到多个模块，多个中间件，多台机器的相互协作才能完成。这一系列调用请求中，有些是串行的，有些是并行的，那么如何确定这个请求背后调用了哪些应用，哪些模块，哪些节点及调用的先后顺序?本文将为你揭晓答案。排查问题难度大，周期长。这样

ahaoGG 0喜欢 / 0评论 2020-09-24

分布式系统的代码检视清单

微服务架构是目前在软件工程界广泛采用的一种做法。采用这种体系结构样式的组织发现自己正在处理分布式故障的增加的复杂性。分布式计算的谬论有据可查，但难以发现。为了处理这种情况，应始终检查以下内容。仅当您的API安全重试且不会引起意外副作用时，调用方才可以重试。

互联网架构之路 0喜欢 / 0评论 2020-09-17

微服务的战争：选型？分布式链路追踪

本文转载自微信公众号「脑子进煎鱼了」，作者陈煎鱼。“微服务的战争” 是一个关于微服务设计思考的系列题材，主要是针对在微服务化后所出现的一些矛盾/冲突点，不涉及具体某一个知识点深入。如果你有任何问题或建议，欢迎随时交流。在经历微服务的战争：级联故障和雪崩

阿义 0喜欢 / 0评论 2020-09-11

springcloud 微服务分布式架构 flowable工作流引擎

三：系统服务 -----------------------------------------------------------------------------------------------------1. 权限管理：点开二级菜单进入三级菜单

Cheetahcubs 0喜欢 / 0评论 2020-09-07

每秒上千订单场景下的分布式锁高并发优化实践！

本文转载自微信公众号「石杉的架构笔记」，作者中华石杉。假如下单时，用分布式锁来防止库存超卖，但是是每秒上千订单的高并发场景，如何对分布式锁进行高并发优化来应对这个场景?比如让面试的同学聊一聊电商高并发秒杀场景下的库存超卖解决方案，各种方案的优缺点以及实践

互联网架构之路 0喜欢 / 0评论 2020-09-03

HDFS分布式存储中NameNode 和DataNode 有什么区别？

随着互联网不断得突飞猛进，数据就逐渐演变为科技和经济发展的核心。更是对于互联网时代的人类和企业来说，是至关重要的，可能对于普通人来说没有太大影响，但是对于国家和大型企业来说，数据就是其命脉，人工智能就是对数据海量化的最好证明之一。所以，数据存储的稳定在一定

憧憬 0喜欢 / 0评论 2020-08-21

深入了解MongoDB 分布式集群

在分布式应用系统中，mongodb 已经成为 NoSQL 经典数据库。要想很好的使用 mongodb，仅仅知道如何使用它是不够的。只有对其架构原理等有了充分认识，才能在实际运用中使其更好地服务于应用，遇到问题知道怎么处理，而不是抓瞎抹黑。这篇文章就带你进入

zyshappy 0喜欢 / 0评论 2020-08-16

聊聊分布式事务

现在摘抄一段wiki的解释，解释下什么是事务。数据库系统具有事务特性，这是其有别与文件系统重要特性。通常一个事务会有多个读写操作构成。事务具有四个基本特性，俗称ACID。数据库的状态从一种状态转变为另外一种状态，事务开始之前和是事务结束之后，数据库完整性约

loviezhang 0喜欢 / 0评论 2020-08-08

图解什么是一致性哈希算法

周末就像太阳，总会到来，也总会离开。此刻，没错，是周六呀!昨晚在B站看了几个长视频，导致2点才睡觉，早上一觉醒来已经10点了。在这里温馨提示各位盆友们，虽然我们都是年轻人，但还是要规律作息，早睡早起。什么是一致性哈希算法。要理解一致性哈希算法就需要知道分布

xayddxjsjxywuhui 0喜欢 / 0评论 2020-07-20

干掉xxl-job：elastic-job王者归来？

调度在计算机领域是个庞大概念，CPU 调度、内存调度、进程调度等都可称之为调度。分布式调度云平台产品的缺失，使得 ElasticJob 从出现伊始便备受关注。ElasticJob Lite 定位为轻量级无中心化解决方案，使用 jar 的形式提供分布式任务

唐亚杰 0喜欢 / 0评论 2020-07-17

分布式调度——zookeeper

zookeeper是一个高性能的分布式数据一致性解决方案，它将那些复杂的，容易出错的分布式一致性服务封装起来，构成一个高效可靠的原语集，并提供一系列简单易用的接口给用户使用。persistent：persistent节点不和特定的session绑定，不会随

ZHANGYONGHAO0 0喜欢 / 0评论 2020-07-05

单机，分布式和集群的区别

我想大家最最最熟悉的就是单机结构，一个系统业务量很小的时候所有的代码都放在一个项目中就好了，然后这个项目部署在一台服务器上就好了。整个项目所有的服务都由这台服务器提供。此时便出现了集群模式，往下接着看。集群中每台服务器就叫做这个集群的一个“节点”，所有节点

枫叶上的雨露 0喜欢 / 0评论 2020-07-04

集群与分布式

我想大家最最最熟悉的就是单机结构，一个系统业务量很小的时候所有的代码都放在一个项目中就好了，然后这个项目部署在一台服务器上就好了。整个项目所有的服务都由这台服务器提供。我想缺点是显而易见的，单机的处理能力毕竟是有限的，当你的业务增长到一定程度的时候，单机的

middleware0 0喜欢 / 0评论 2020-06-27

分布式事务的实现

在微服务架构中，随着服务的逐步拆分，数据库私有已经成为共识，这也导致所面临的分布式事务问题成为微服务落地过程中一个非常难以逾越的障碍，但是目前尚没有一个完整通用的解决方案。其实不仅仅是在微服务架构中，随着用户访问量的逐渐上涨，数据库甚至是服务的分片、分区、

粗茶淡饭 0喜欢 / 0评论 2020-06-25

Jmeter基础010----分布式

当需要测试的并发量比较大时，可以才使用多台测试机协作完成测试任务，安全高效、功能强大。在同一台设备开启3个Jmeter即可，复制3个Jmeter,因为要同时启动然后网络间进行数据交互,修改端口号。在控制器和所有远程服务器上安装jmeter；在远程服务器上运

AngelaDan 0喜欢 / 0评论 2020-06-16

mysql分布式架构mycat

mysqld --initialize-insecure --user=mysql --datadir=/data/3307/data --basedir=/app/mysql. mysqld --initialize-insecure --user=

夙梦流尘 0喜欢 / 0评论 2020-06-14

分布式还是集中式？核心数据管理怎么选？

开篇正如《三国演义》开场诗中所云：天下大势，分久必合，合久必分。自从有了计算机那天开始几乎一直是IT圈里割袍断义话题排行榜前五名。特别是随着近些年云计算技术的飞速发展。分布式架构这场大火更是借着云计算这场东风，乘风而起，大有千秋万代一统江湖的感觉。正所谓，

ZHANGYONGHAO0 0喜欢 / 0评论 2020-06-11

微服务架构中分布式事务实现方案怎样何取舍

提起微服务架构，不可避免的两个话题就是服务治理和分布式事务。数据库和业务模块的垂直拆分为我们带来了系统性能、稳定性和开发效率的提升的同时也引入了一些更复杂的问题，例如在数据一致性问题上，我们不再能够依赖数据库的本地事务，对于一系列的跨库写入操作，如何保证其

middleware0 0喜欢 / 0评论 2020-06-09

Linux分布式缓存系统——Redis持久化+Sentinel哨兵模式+Redis集群

Redis是一个开源的使用C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。它通常被称为数据结构服务器，因为值可以是字符串、哈希、列表、集合和有序集合等类型。支持多种数据结构的存储，

loviezhang 0喜欢 / 0评论 2020-06-08

【从单体架构到分布式架构】（二）请求增多，单点变集群(1)：负载均衡

上一个章节，我们搭建了一个最简单的单体服务项目，单体架构就是把所有的功能都放在一个工程项目中。但是当访问量不断增加，我们只部署一套环境就有些吃不消了，这时候有什么解决方案么？如果我们去一个超市购物，当客户数量不多的时候，超市只开通一个结账通道就可以满足需要

魏莉的微 0喜欢 / 0评论 2020-06-07

基于WCF构建企业级大型分布式SOA架构(初级篇)视频课程

51CTO学院，基于WCF的SOA企业级系统架构视频课程，对想学习这种技术的同学会很有帮助，有兴趣的可以看看：

joynet00 0喜欢 / 0评论 2020-06-04

PostgreSQL的几种分布式架构对比

Postgresql由于强大的功能和良好的扩展性，基于postgresql来做的分布式架构也比较多，大部分用于分析类场景，下面比较几种常见的架构特点。Citus以插件的方式扩展到postgresql中，独立于postgresql内核，所以能很快的跟上pg主

xayddxjsjxywuhui 0喜欢 / 0评论 2020-06-02

基于CentOS7的Hadoop3.1.2完全分布式集群部署记录

本文介绍基于CentOS7的Hadoop3.1.2完全分布式集群部署方法和注意事项，整体服务部署架构分为1 个 master主机，2 个 slave 主机，总共3台服务器，外加一台hive服务器。

zhangll00 0喜欢 / 0评论 2020-05-31

【SpringCloud】Spring Cloud Alibaba 之 Seata 分布式事务中间件（三十五）

什么是分布式事务问题？　　单体应用中，一个业务操作需要调用三个模块完成，此时数据的一致性由本地事务来保证。简单来说，一次业务操作需要操作多个数据源或需要进行远程调用，就会产生分布式事务问题。　　Seata 是一款开源的分布式事务解决方案，致力于提供高性能和

isHooky 0喜欢 / 0评论 2020-05-30

MySQL-MyCAT分布式架构

[ ~]# mysqld --initialize-insecure --user=mysql --datadir=/data/3307/data --basedir=/application/mysql. [ ~]# mysqld --initiali

vivenwan 0喜欢 / 0评论 2020-05-30

阿里开源分布式限流框架 -Sentinel Go 0.3.0 发布，支持熔断降级能力

阿里巴巴高级开发工程师。Sentinel 是阿里巴巴开源的，面向分布式服务架构的流量控制组件，主要以流量为切入点，从限流、流量整形、熔断降级、系统自适应保护等多个维度来帮助开发者保障微服务的稳定性。近期，Sentinel Go 0.3.0 正式发布，带来了

zhangll00 0喜欢 / 0评论 2020-05-28

阿里开源分布式限流框架 - Sentinel Go 0.3.0 发布，支持熔断降级能力

阿里巴巴高级开发工程师。Sentinel 是阿里巴巴开源的，面向分布式服务架构的流量控制组件，主要以流量为切入点，从限流、流量整形、熔断降级、系统自适应保护等多个维度来帮助开发者保障微服务的稳定性。近期，Sentinel Go 0.3.0 正式发布，带来了

枫叶上的雨露 0喜欢 / 0评论 2020-05-28

跟我学SpringCloud | 第十一篇：使用Spring Cloud Sleuth和Zipkin进行分布式链路跟踪

在分布式服务架构中，需要对分布式服务进行治理——在分布式服务协同向用户提供服务时，每个请求都被哪些服务处理？在遇到问题时，在调用哪个服务上发生了问题？在分析性能时，调用各个服务都花了多长时间？哪些调用可以并行执行？……为此，分布式服务平台就需要提供这样一种

summerZBH 0喜欢 / 0评论 2020-05-26

微服务分布式架构中，如何实现日志链路跟踪？

开发排查系统问题用得最多的手段就是查看系统日志，在分布式环境中一般使用ELK来统一收集日志，但是在并发大时使用日志定位问题还是比较麻烦，我们来看下面的图：。我们应该尽可能的对代码无入侵，使用Logback的MDC机制日志模板中加入traceId标识，取值方

深圳克林斯曼 0喜欢 / 0评论 2020-05-26

微服务架构带来的分布式单体

微服务架构其实目标是为了服务可以独立的开发、独立的部署，快速迭代，并且技术多样性。如果不解决这些问题，随着服务生态系统的增长，情况越来越糟。虽然微服务架构很好，很高级，但是开发的过程经常因为临时紧急需求、业务人员不懂抽象等原因拆成了分布式单体架构。做大量可

亦碎流年 0喜欢 / 0评论 2020-05-26

5分钟实现SpringBoot整合Dubbo构建分布式服务

Dubbo是Alibaba开源的分布式服务框架，它最大的特点是按照分层的方式来架构，使用这种方式可以使各个层之间解耦合。从服务模型的角度来看，Dubbo采用的是一种非常简单的模型，要么是提供方提供服务，要么是消费方消费服务，所以基于这一点可以抽象出服务提供

buaashang 0喜欢 / 0评论 2020-05-18

分布式基础理论之CAP 和BASE

本文聊聊 CAP 定理和 BASE 理论。数据的强一致性。希望分布式系统只读到最新写入的数据。那么我们需要在可用性A和强一致性C中做出取舍。分区A和分区B,不能通信，一方的数据无法同步给另一方，我们是选择不忍受数据的强一致性，不提供服务。需要注意的是，不存

middleware0 0喜欢 / 0评论 2020-05-17

Zookeeper入门一篇就够了

下面将要介绍的就是分布式相关的两个基础理论：CAP定理和BASE理论。最多只能满足其中的两项。BASE是对CAP中一致性和可用性权衡的结果。Zookeeper中的事务，和数据库中具有ACID特性的事务有所区别。在Zookeeper中，事务是指能够改变Zoo

憧憬 0喜欢 / 0评论 2020-05-16

Spring Cloud+Spring Boot+Mybatis+Redis+Rabbit MQ+微服务+分布式构建b2b2c电子商务

核心架构：Spring Cloud、Spring Boot、Mybatis、Redis、Rabbit MQ、微服务、分布式、电子商务核心思想：产品微服务、模块化、原子化、持续集成、分布式、集群部署开发模式：代码生成工具、驱动式开发模式、提高开发效率源码可加

isHooky 0喜欢 / 0评论 2020-05-15

大数据之高性能的分布式服务框架Dubbo【多测师】

10000+的并发什么是dubbo？在zoo.cfg的第14行把端口改为：client_port = 20181 端口然后在bin目录下启动服务第四节：Dubbo管理工具安装第五节：Dubbo接口测试-jmeter插件Protocol协议 ==》zooke

manongxiaomei 0喜欢 / 0评论 2020-05-10

01 . 分布式存储之FastDFS简介及部署

FastDFS 服务有三个角色:跟踪服务器、存储服务器和客户端。group 中 storage 存储依赖本地文件系统, storage 可配置多个数据存储目录, 磁盘不做 raid, 直接分别挂载到多个目录,将这些目录配置为 storage 的数据目录即

wqbala 0喜欢 / 0评论 2020-05-10

分布式 - 一步步深入（理论汇总）

用了这么久分布式从来没有总结过分布式理论，抽空总结一下。本篇从实际项目应用出发，从两个方面阐述分布式理论，第一个方面分布式解决什么问题，第二方面分布式带来什么问题。CAP 理论不允许出现在分区存在的情况下拥有完美的数据一致性和可用性。

憧憬 0喜欢 / 0评论 2020-05-10

FastDFS+docker建立分布式文件系统

每个客户端服务器都需要安装Nginx

manongxiaomei 0喜欢 / 0评论 2020-05-09

聊聊分布式系统一致性问题，你懂几分？

前几天在pyq发起了约稿，分布式一致性问题的选题呼声最高，分布式系统的内容是非常庞杂的，所以我们从其中几个重点的部分切入，慢慢展开。今天重点来一起学习分布式系统一致性问题，不过内容比较多需要分几次写完。作为后端从业人员，我们在找工作写简历的时候除了高并发经

深圳克林斯曼 0喜欢 / 0评论 2020-05-07

redis分布式和mysql分布式/集群

目前的项目很少会采用单机架构了，一是因为单机性能有限，二是因为单机服务一旦故障整个系统就无法继续提供服务了。分布式数据库是在集中式数据库的基础上发展起来的，是计算机技术和网络技术结合的产物。分布式数据库是指数据在物理上分布而逻辑上集中管理的数据库系统。

枫叶上的雨露 0喜欢 / 0评论 2020-04-18

分布式事务产生场景

在前面我们说到跨网络完成事务就会产生事务，这一节我们看一下分布式事务产生的场景。分布式系统是从单体系统演变过来的，我们要理解分布式事务产生的场景，需要从单体应用进行理解。Web-Server中的服务都是在一个项目中，此时只有一个数据库。Web-Server

亦碎流年 0喜欢 / 0评论 2020-04-17

集群，分布式，微服务

同一个业务，部署在多台服务器上；通过添加服务器的数量，提供相同的服务，从而让服务器达到一个稳定、高效的状态。SOA就已经提出的面向服务的架构思想，所以微服务应该算是SOA的一种演进吧。一个微服务应该都是单一职责的，这才是“微”的体现，一个微服务解决一个业务

枫叶上的雨露 0喜欢 / 0评论 2020-04-15

Redisson 分布式锁超简封装

Redisson是一个在Redis的基础上实现的Java驻内存数据网格。它几乎提供了Redis所有工具，不仅封装Redis底层数据结构，而且还提供了很多Java类型映射。Redisson支持redis单实例、redis哨兵、redis cluster、re

isHooky 0喜欢 / 0评论 2020-04-10