wangluoyang 2009-03-24
硅谷企业Cloudera日前发布了一款免费的,基于Linux软件环境下的个人用面向云计算的分布式软件,该软件降低了对使用人员的要求,使“普通开发者”也可用该软件搭建云计算平台,处理海量数据。
“Hadoop提供了无可匹敌的收集、存储和分析数据的功能,但是直到现在,有一些企业还是回避它,”Burlingameg公司的创建人之一Jeff Hammerbacher,在与Betanews的一场新闻发布会上说。
“以前,拥有博士学位背景的人才能使用Hadoop。但是例如医院和银行这样的机构,并没有这样的人员。 Hadoop的配置和管理的确很让人痛苦。但是现在我们提供了更容易的可以让“普通人”使用的Hadoop,”Hammerbacher说,他曾经在 Facebook创建并领导了一个Hadoop数据工作组。
Facebook、Google和Yahoo这样的网站,最初开发Hadoop的目的是,通过数以千记的计算机将文本和日志数据集中在一起,将数据放在他们的网站上,观察用户的使用习惯,Hammer如是说。但是所有处理万亿字节非结构化的信息的公司,也必将在更多的领域使用Hadoop。
例如,一个早期的顾客,现在使用新版的Hadoop Cloudera Distribution分析基因序列,也用于做简报用。另一个公司的共同创办人,Cisciglia曾经在Google倡议并与国家科学基金(NSF)合作开发Google主办的Hadoop簇集,用于科研和教育。
根据Hammerbacher的说法,Cloudera计划从围绕软件的服务和支持获利,而不是软件本身。“红帽对Linux所做的,正是我们对Hadoop所做的。”Hammerbacher如是说。
Cloudera正在分发软件的RPM,这对大多数Linux管理员和开发人原来说再熟悉不过了,还有在Apache软件许可下的Amazon EC2许可,Bisciglia介绍说。
该软件的主要组成部分包括Hadoop 分布式文件系统,一个容错文件系统用于处理商品硬件出现的错误;一个数据存储基础设施叫做Hive;以及一个MapReduce软件的执行,用于将应用程序分解成一些小的工作组,并在大型主机上自动并行执行。
为了使Hadoop distribution的安装和配置更容易,Cloudera建立了一个新的门户网站,也是免费的,叫做my.cloudera.com,在这个网站上,大家可以使用一个基于网络的配置工具生成客户软件包,并可优化符合他们的特殊需求。用户也可设置保存簇集信息的设置以便自动更新。