两款高性能并行计算引擎Storm和Spark比较（转）

小琳子 2014-11-20

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。

所以这是把过程传递给数据。这和Hadoop map/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法（前一步计算输出是下一步计算的输入）性能更高。

Shark只是一个基于Spark的查询引擎（支持ad-hoc临时性的分析查询）

而Storm的架构和Spark截然相反。Storm是一个分布式流计算引擎。每个节点实现一个基本的计算过程，而数据项在互相连接的网络节点中流进流出。和Spark相反，这个是把数据传递给过程。

两个框架都用于处理大量数据的并行计算。

Storm在动态处理大量生成的“小数据块”上要更好（比如在Twitter数据流上实时计算一些汇聚功能或分析）。

Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群，Spark基于in-memory管理可以进行快讯扫描，并最小化迭代算法的全局I/O操作。

不过Spark流模块（Streaming Module）倒是和Storm相类似（都是流计算引擎），尽管并非完全一样。

Spark流模块先汇聚批量数据然后进行数据块分发（视作不可变数据进行处理），而Storm是只要接收到数据就实时处理并分发。

不确定哪种方式在数据吞吐量上要具优势，不过Storm计算时间延迟要小。

总结下，Spark和Storm设计相反，而Spark Steaming才和Storm类似，前者有数据平滑窗口（sliding window），而后者需要自己去维护这个窗口。

出处：http://blog.csdn.net/iefreer/article/details/32715153

: 小琳子

相关推荐

JStorm介绍

JStorm是一个类似于Hadoop MapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务交给JStorm系统，JStorm将这个任务跑起来，并按7*24小时运行。如果中间一个worker发生了意外故障，调度器立即分配一个新的worke

csdnhadoop 0喜欢 / 1评论 2020-07-04

69_缓存预热解决方案：基于storm实时热点统计的分布式并行缓存预热

要统计出来当前最新的实时的热数据是哪些，我们就得将商品详情页访问的请求对应的流量，日志，实时上报到kafka中。然后将数据从mysql中查询出来，写入缓存中，进行缓存的预热，多个服务实例，分布式的并行的去做，基于zk分布式锁做了协调了，分布式并行缓存的预热

枫叶上的雨露 0喜欢 / 0评论 2020-05-02

storm集群安装

下面分别启动ZooKeeper、Nimbus、UI、supervisor、logviewer. 节点node2和node3启动supervisor，按照配置，每启动一个supervisor就有了4个slots. 分发配置storm.yaml文件给其他节点

LandryBean 0喜欢 / 0评论 2020-03-12

大数据-storm理论

　　　　启动、停止自己管理的worker进程。　　　　不管在哪个bolt中出现问题，都会回到spout再次走流程，但是有问题，这个情况可以忽略。　　　　client--->消息队列--->strom--->结果源。　　　　　　　　i++;

一名java从业者 0喜欢 / 0评论 2020-01-09

[storm]消息事务算法的一个理解

U代表spout创建的tuple id.也就是tuple创建时和ack时都要XOR一次，当所有component都处理完时，结果值是0.最后一个bolt没有下游bolt时为0.

weeniebear 0喜欢 / 0评论 2013-03-25

《Storm入门》中文版

本文翻译自《Getting Started With Storm》译者：吴京润编辑：郭蕾方腾飞。由于本人是持学习的目的翻译本书，对Storm的了解并不丰富，许多专用术语翻译难免不准确，如有谬误还请读者朋友们不吝指正。本书共分为八个章节和三个附录：第一

weeniebear 0喜欢 / 0评论 2014-05-28

基于Storm的WordCount

storm的配置、eclipse里maven的配置以及创建项目部分省略。

小燕子 0喜欢 / 0评论 2019-12-17

JStorm：任务调度

前一篇文章 JStorm：概念与编程模型介绍了JStorm的基本概念以及编程模型方面的知识，本篇主要介绍自己对JStorm的任务调度方面的认识，主要从三个方面介绍：。Worker是task的容器，同一个worker只会执行同一个topology相关的t

sfqbluesky 0喜欢 / 0评论 2019-12-12

JStorm2.1.1集群的安装和使用

JStorm2.1.1集群的安装和使用。Storm是一个免费开源、分布式、高容错的实时计算系统，而JStorm是阿里巴巴开源的基于Storm采用Java重写的一套分布式实时流计算框架，在性能和支持的集群规模上做了较大优化。在服务器A和服务器B上：。#pro

AbnerSunYH 0喜欢 / 0评论 2016-08-12

Storm深入理解

Storm是一个免费开源、分布式、高容错的实时计算系统。Nimbus ：Storm集群的Master节点，负责分发用户代码，指派给具体的Supervisor节点上的Worker节点，去运行Topology对应的组件的Task。ZooKeeper ：用来协调

weeniebear 0喜欢 / 0评论 2016-08-11

【Zookeeper在storm中扮演的角色】

Storm的所有的状态信息都是保存在Zookeeper里面，nimbus通过在zookeeper上面写状态信息来分配任务，supervisor，task通过从zookeeper中读状态来领取任务，同时supervisor, task也会定义发送心跳信息到z

Stereo 0喜欢 / 0评论 2016-07-27

Kerberos之后 storm UI

找到：network.negotiate-auth.trusted-uris 修改值，写入要访问的连接地址，协议+域名例如我的http://master

芒果先生Mango 0喜欢 / 0评论 2018-05-31

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

Flink-Storm 是 Flink 官方提供的用于 Flink 兼容 Storm 程序 beta 工具，并且在 Release 1.8 之后去掉相关代码。本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm

dykun 0喜欢 / 0评论 2019-08-16

hadoop spark hive storm的发展过程

5、简化map reduce的开发， hive

Yarnyogay 0喜欢 / 0评论 2017-07-25

Storm集群的安装配置

　　安装Storm之前首先保证之前安装的Zookeeper服务正常运行，包括配置hosts映射，主机名修改，防火墙都已经设置完好。　　部分需要依赖Python，红帽系列Linux默认Python版本是2.6.6，可以满足要求；Linux可以安装多个版本Py

GimmeS 0喜欢 / 0评论 2016-10-11

Storm Stream Grouping编写自定义分组实现

Storm是支持自定义分组的，本篇文章就是探究Storm如何编写一个自定义分组器，以及对Storm分组器如何分组数据的理解。从上面的代码可以看出，该自定义分组会把数据归并到第一个Task<code>Arrays.asList;</code

benbendy 0喜欢 / 0评论 2016-09-30

Storm的并行度、Grouping策略以及消息可靠处理机制简介

Workers : 在一个节点上可以运行一个或多个独立的JVM 进程。但一般默认每个executor只执行一个task。一个worker可以包含一个或多个executor, 每个component 至少对应于一个executor, 所以可以说executo

Johnhao 0喜欢 / 0评论 2016-09-30

Storm【配置项】 - 详细解释

storm.id运行中拓扑的id,由storm name和一个唯一随机数组成。nimbus.childopts通过storm-deploy项目部署时指定给nimbus进程的jvm选项。nimbus.reassign当发现task失败时nimbus是否重新分

AbnerSunYH 0喜欢 / 0评论 2016-04-28

初识Jstorm 多个bolt应用

1，怎么了解jstorm，这个答案没什么固定的，但是我个人比较喜欢去看官方的文档，如果官方的文档实在找不到了，再去baidu，baidu不到那就只能google了，如果还是找不到。。至少从流水两个字，我想到了管道，其实个人理解jstorm的流水线很像是管道

benbendy 0喜欢 / 0评论 2016-04-15

Storm核心组件运行机制

1. storm集群启动后，nimbus进程、supervisor进程，分别向zookeeper进行注册

echosilly 0喜欢 / 0评论 2016-03-26

Storm 问题记录

4、此时，可以运行基于JStrom编写的storm程序。

shuaiOKshuai 0喜欢 / 0评论 2016-02-18

Storm0.9.4的集群部署

Twitter开源的Storm是一个分布式的、可靠的、容错的实时计算系统。Storm的其它概念和功能特点此处就不再赘述，这里主要讲Storm如何在集群中正确配置安装。在我之前听说Storm的时候，Storm的网络传输还是通过ZeroMQ来实现的，当前版本已

kobeyan 0喜欢 / 0评论 2015-05-28

storm

System.out.println("hadoop_env:"+hadoop_env);Stringpath=args[1];System.out.println("path:"+path);Stringtopic

benbendy 0喜欢 / 0评论 2015-05-26

Apache Storm 集群环境搭建

Apache storm 是一个由twitter开源的大数据处理系统，与其他系统不同的是，storm旨在用于分布式实时处理并且与语言无关。笔者所认知的storm使用场景诸如实时日志分析、网站用户行为实时分析、实时计算等，目前很多公司也都把storm作为自

bxqybxqy 0喜欢 / 0评论 2015-01-13

storm集群搭建

2) 以“:”为结束符的字符串，代表了一个键名，“:”后面则是键值。// 启动 storm nimbus >/dev/null 2>&1(控制台用2表示输出转到前面垃圾箱里并转到后台执行用&表示。bin/storm ui &g

benbendy 0喜欢 / 0评论 2014-12-27

storm kill不掉运行的Topology

Topology 的持久化状态包括： active, inactive, killed, rebalancing 四个状态。代码上看到每种状态都可以转换成一些持久化或者中间状态。我们在shell上的操作实际上就是改变的zookeeper数据存储的程序状

Johnhao 0喜欢 / 0评论 2014-12-27

storm简介

1 Storm简介： Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。而流计算并不是最近的热点，金融机构的交易系统正是一个典型的流计算处理系统，它对系统的实时性和一致性有很高要求。

chenjieit 0喜欢 / 0评论 2014-12-26

Storm基本概念

Storm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs，而在Storm上运行的是拓扑，这两者之间是非常不一样的。一个关键的区别是：一个MapReduce job最终会结束，而一个topology永远会运行

周健华 0喜欢 / 0评论 2014-12-05

【转】使用Storm处理事务型实时计算需求时的几处难点

接触流计算领域不长时间，对这个领域可以说还是个门外汉。最近在做实时计算相关的应用，简单说下自己的感受，以后再展开来讨论。淘宝的兄弟可以自豪地说他们的实时应用已经承受住了双十一全世界范围内最大的单日数据流的冲击。总之，阿里巴巴中文站的特点是流量与订单量小，但

AKbiubiu 0喜欢 / 0评论 2014-11-20

storm ui 参数详解

本文主要解释下storm ui上各项属性的含义。transferred: transferred tuple数, 说下与emitted的区别：如果一个task，emitted一个tuple到2个task中，则。complete latency:spout

周健华 0喜欢 / 0评论 2014-09-25

storm简介

伴随着信息科技日新月异的发展，信息呈现出爆发式的膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。其实稍微了解点背景知识的码农们都知道，这是因为后台系统做的是每天一次的全量处理，而且大多是在夜深人静之时做的，那么你今天白天做

Johnhao 0喜欢 / 0评论 2014-08-21

关于storm的一些记录

对于0.9版本发布后，引入新的消息传输机制，不需要再依赖ZeroMQ。配置项相当清晰，见名知意。Nimbus负责在集群里面分布代码，分配工作给机器，并且监控状态。每一个工作节点上面运行一个叫做Supervisor的进程。Nimbus和Supervisor

echosilly 0喜欢 / 0评论 2014-08-12

storm-0.9.2 集群安装

Storm 0.9.0.1版本的第一亮点是引入了netty transport。Storm网络传输机制实现可插拔形式，当前包含两种方式：原来的0mq传输，以及新的netty实现；在早期版本中，Storm只支持0mq传输，由于0MQ是一个本地库，对平台的依赖

AbnerSunYH 0喜欢 / 0评论 2014-08-11

Storm简介

伴随着信息科技日新月异的发展，信息呈现出爆发式的膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。但是，hadoop不擅长实时计算，因为它天然就是为批处理而生的，这也是业界一致的共识。先抛开s4,storm,puma这些系统

Johnhao 0喜欢 / 0评论 2014-08-01

storm使用

解压后修改conf/storm.yaml文件，#这个是storm将要启动几个本地work，一个端口对应一个work。但是启动nimbus是没有问题的, 这个主要以为内conf_dir路径设置不正确, 在bin/storm脚本中需要加上这样一句:

Johnhao 0喜欢 / 0评论 2014-05-30

Storm入门教程第五章一致性事务

Storm是一个分布式的流处理系统，利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错，则可以被重传，但是如何保证出错的tuple只被处理一次呢？Storm提供了一套事务性组件Transaction Topology，用来解决这

Johnhao 0喜欢 / 0评论 2013-10-04

storm入门教程第四章消息的可靠处理

storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的，并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。一个消息从spout发送出来，可能会导致成百上千的消息基于此消息被创建。如

benbendy 0喜欢 / 0评论 2013-10-04

Storm入门教程第三章 Storm安装部署步骤

本文以Twitter Storm官方Wiki为基础，详细描述如何快速搭建一个Storm集群，其中，项目实践中遇到的问题及经验总结，在相应章节以“注意事项”的形式给出。Supervisor负责监听从Nimbus分配给它执行的任务，据此启动或停止执行任务的工作

AbnerSunYH 0喜欢 / 0评论 2013-10-04

Storm入门教程第二章构建Topology

Storm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs，而在Storm上运行的是拓扑，这两者之间是非常不一样的。一个关键的区别是：一个MapReduce job最终会结束，而一个topology永远会运行

chenjieit 0喜欢 / 0评论 2013-10-03

大数据系列7：Storm – 流计算

改变下面两个依赖的版本为3.0.3

echosilly 0喜欢 / 0评论 2013-10-02

二、基于storm的爬虫设计方案构想

最近在弄storm，之前又弄过爬虫，所以把两者结合起来我觉得还挺有意思的。storm作为实时流处理的利器，其使我们非常方便的对系统各部件的并发进行rebalance，所以如果将其用在自己的爬虫中我们的爬虫就可以分布式了，例如：下载比较慢，那么我们就给下载部

echosilly 0喜欢 / 0评论 2013-09-01

Storm 常见使用模式-场景

用TimeCacheMap来高效地保存一个最近被更新的对象的缓存。流聚合是指基于共同的tuple字段把两个或者多个数据流聚合成一个数据流。流聚合比较类似于table join，只是table join的输入在一次执行中是有限的，并且join的语义（条件）是

yanmingxuehu 0喜欢 / 0评论 2013-08-04

storm集群安装

pfjia 0喜欢 / 0评论 2013-08-02

流式大数据处理的三种框架：Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑。由spout发射出的tuple是不可变数组，对应着固定的键

小草君技术 0喜欢 / 0评论 2017-03-08

storm运行topology不正常排查

检查自己的topology，在ui中点击自己的topology后查看spout是否有emit计数，如果有，那么storm集群ok，如果不正常，那是程序的问题。在ui中检查自己的topology，看看是否显示了spout和bolt运行在哪儿，如果没有说明根本

周健华 0喜欢 / 0评论 2013-05-27

实时计算系统---Storm

伴随着信息科技日新月异的发展，信息呈现出爆发式的膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。全量数据处理使用的大多是鼎鼎大名的hadoop或者hive，作为一个批处理系统，hadoop以其吞吐量大、自动容错等优点，在海

luokingfly 0喜欢 / 0评论 2015-08-29

storm视频教程下载

storm视频教程下载，从菜鸟到大神，大数据课程，热门但稀少，需要的马哥们速度下载：。第一阶段：storm集群的搭建（8讲）。第二阶段：storm入门到精通（15讲）。第三阶段：storm项目实战课程（18讲）。要是地址失效了，请加我：3113533060

zhubing000 0喜欢 / 0评论 2014-11-02

Storm 集群异常的解决

通过Google搜索,发现有很多人问这个问题,nathanmarz的建议是将ZeroMQ的版本降级为2.1.7;原来系统使用的3.0.2,降级为2.1.7后发现仍然存在这个问题,基本可以排除是由于ZeroMQ导致的.这是做dayoou.com这个项目的时候

shuaiOKshuai 0喜欢 / 0评论 2012-12-06

storm 的学习

Storm入门教程第三章Storm安装部署步骤。storm入门教程第四章消息的可靠处理。Storm入门教程第五章一致性事务

AbnerSunYH 0喜欢 / 0评论 2012-11-09