yuanxiaogang 2017-07-20
关于Hadoop
谈及Hadoop的诞生,Doug Cutting在大家面前露出了惊喜的神色。他表示,当初仅仅是为了完成手上的项目,确实没有想到一旦创建出这个技术后,会有如此之广的用途。例如当时没有预见能够在制造、银行、电信这么多的行业广泛应用,最初仅仅认为也就是主要用于搜索引擎和网站创建上,算是意外之喜了。“最让我惊喜的是,围绕Hadoop以及基于Hadoop的所有项目以及技术并不是单独存在的,而是以多种技术为基础所组成的系列家族,并且整个技术体系还在不断发展和演进中,换句话说围绕着Hadoop现在已经形成了非常强大的生态系统,这种生态系统的演进和发展并不受制于其中任何一种技术。”Doug Cutting补充道。
谈到Hadoop在我国的发展壮大,确实可以看到我国市场和Hadoop之间有一个非常自然的契合和匹配。从数据的角度来说,我国可能是世界上最大的单一市场,拥有数据的数量和规模超过了世界上大部分其他国家,这也是Hadoop在我国有着非常成功的发展的原因之一,这种特殊的发展环境或许催生了我国Hadoop生态圈与其他国家的一些差别。
Doug Cutting说:“在中国,很多Hadoop用户习惯使用Hadoop的开源版本,而不需要去得到哪一家具体公司的支持和帮助。中国市场和美国相比,需要花更多时间对市场进行教育和培育,也就是说从更加长远的角度出发,需要让人们了解在使用这些软件的过程中如果能够得到有关方面的支持和帮助会有更佳的使用体验。这样的市场教育在中国可能要花很长时间,但对于Hadoop在中国的发展前景我满怀信心。”
任何技术的完善都要在不断的发展中萌生创新的活力,Hadoop也是如此。今年又是云计算市场风起云涌的一年,探讨云计算对Hadoop的影响,Doug Cutting有自己的想法。“我认为云计算或云模式使客户在使用Hadoop的方式上具有了更大的灵活性,例如可以在云环境中使用Hadoop。如果用本地安装运行的形式使用Hadoop,往往要创建一个单一的大集群来支持各种不同的应用,并且需要拥有一个统一的数据拷贝;如果在云环境中运行Hadoop,数据会在亚马逊存储之类的系统中,云环境供应商已经帮助管理了数据拷贝。此外,在云环境中使用Hadoop,客户可以针对不同的应用创建不同的集群,这样的集群开关或者规模伸缩等都可以按需进行,对于客户来说,应用更好被控制,同时也增加了灵活性。
如果从整个IT长远的发展趋势看,过去一个企业中的IT往往是集中在一个部门,但现在很多企业的数据和数字技术是在整个企业中扩散并被使用,各个非IT部门具有越来越大的能力在IT方面进行自我管理、自我服务,越来越多的工具能够帮助做到这一点,不得不说云计算促进和推动了这一趋势的发展。
由于云计算的出现使一个公司中非IT部门,例如运营、制造、市场营销部门能够自行采购一些服务并且加以运行,控制能力和灵活性都比以往大大增强,所以云计算本身也是促进了IT和数据的分散化、自助化,一改过去那种集中化的模式。采访中,笔者也针对数据仓库架构以及Hadoop针对小数据量应用的问题请教了Doug Cutting。
51CTO记者:如今,有的数据专家趋向于将Hadoop作为数据仓库架构的补充,这个问题您怎么看待?
Doug Cutting:就数据仓库的架构而言,实际上我们可以把整个数据仓库都建立在Hadoop上。五年前,我们与Ralph Kimball博士,他是数据仓库架构主要的创建人,一起弄明白也证实了可以完全基于Hadoop来建立数据仓库,而且也有很多用户确实是把自己的数据仓库完全建立在Hadoop基础上。
当然,就建立数据仓库的技术而言,有其他的一些技术或者工具与Hadoop相比,存在的时间更长,事实上对于这些时间更加长久的技术,Hadoop并没有能完全具备其中所有的功能与性能。但即便如此,很多用户还是选择将他们的数据仓库构建在Hadoop架构上,为了能够实现更加优越的可扩展性、更高的性价比以及更好的灵活性。
对于一些初创企业来说,他们会用Cloudera Hadoop来构建整个数据仓库;对于一些其他类型的公司,如果他们已经具备传统技术架构的数据仓库,他们也会采用Cloudera Hadoop,也就是将他们传统数据仓库中的一部分工作负载迁移到Cloudera Hadoop的平台上。对于这样的公司来说,实际上他们拥有了一个更大的数据仓库,拥有了更好的伸缩扩展性并且能够降低成本。当然,对于已有基于传统技术的数据仓库的公司来说,如果要把所有的工作负载都迁移到Cloudera上是有困难的,因为合适性与兼容性的问题,部分迁移还是可以完成的。
51CTO记者:对于一些数据量极小的应用,有的人认为用Hadoop是“杀鸡用牛刀”,您对此如何理解?
Doug Cutting:是不是“杀鸡用牛刀”,主要看用户完成任务的过程中需要使用怎样的工具,有时候也许在规模上、扩展性上超出了需求,但仍然能够带来灵活性的优势。例如使用基于Spark的机器学习工具,有些时候用户仍然发现Hadoop平台对于他们完成任务非常有用,虽然规模可能过大;实际应用中也发现在很多应用当中即使是规模很小的集群,比方说5个节点的集群,客户也发现使用Hadoop与其他技术选项相比能够产生更好的产出,带来更多的价值与竞争,当然我们并不认为Hadoop是一种通用的工具,能够解决所有问题。
除了Hadoop和spark之外,在开源领域Doug Cutting还比较关注Kudu。Kudu是表现强大的存储引擎,既具备了像Hbase随机访问的很强的知识能力,同时又具备HDFS的快速查询能力,兼而有之;另外就是Kafka,Kafka有很强的实时应用支持能力和流处理能力,据了解,Cloudera已经把这两大技术采纳到平台中更好地满足我们客户的需求。“我们也在构建一些更多的Spark机器学习的工具,与之相关的一个项目是Apache Spot,它表现了网络安全的能力,帮助我们的客户免遭黑客的攻击,这是我们在Hadoop和Spark基础上进一步的推进。”Doug Cutting说。
关于人工智能
如今人工智能的火热程度已经很难用语言来形容了,对于人工智能、大数据以及Hadoop,Doug Cutting强调:“我觉得Hadoop和AI之间是非常适合、非常匹配的一项技术,因为AI本身就是一种大数据的应用,特别是在对于AI系统进行训练的时候,使用的数据越多,AI系统就越先进。上周Google发表了一篇文章,主要讲的是AI的图象识别,也就是说在用数以十亿计的图象识别的深度智能系统进行培训的基础上,仍然是使用的数据越多、图片越多,这种深度学习图象识别的能力就越强,也就是说对于人工智能系统进行训练使用的数据量越大,人工智能系统的质量就越高,从这个意义上来说AI本身也是一种大数据应用。”笔者最近接触了很多有关AI的言论以及产品,就知识图谱以及深度学习请Doug Cutting谈了谈自己的看法。
51CTO记者:因为2012年谷歌推出了知识图谱,现在越来越得到行业的认可。以知识图谱为代表的知识工程也越来越得到关注,请问这种以知识图谱作为推动人工智能发展和落地的重要工具、技术手段的看法,您是怎么理解?
Doug Cutting:首先就知识图谱、知识工程而言,在推动人工智能的过程中,在我看来这种知识图谱、知识工程的方法没有统计学方法那么成功。早在八十年代,知识工程就已经非常流行了,那时我还是学生。如今深度学习取得的成功主要依靠的是统计学的方法,也就是基于巨量数据的各种模型的训练,而不是通过知识工程的方式,在图像识别、语音识别以及分类任务的完成上取得了很大进展。当然我也不是说像知识图谱、知识工程的方式在人工智能发展过程中永远不会成功,只是目前的现状不如统计学的方法更加有效。