arsenal0 2012-11-18
如果说阿里巴巴是国内最有价值的商业数据公司,你同意吗?我们都知道阿里巴巴旗下有7大业务,其中像淘宝和天猫每天都会产生大量的交易数据,据统计,在刚刚结束的“双11”这一天的交易额达到191亿元,天猫132亿、淘宝59亿,支付宝处理交易笔数1.058亿笔,峰值时期处理交易笔数9万笔/分钟,核心数据库集群处理了41亿个事务,支付宝核心数据库集群执行了285亿次的查询。在访问量方面,当天有2.13亿独立用户访问天猫,占到互联网用户的四成。虽然,现在淘宝还没有对外公布本次单日产生的数据量,但单从上面的数字信息来看,这个数据量一定是很惊人的。所以,如果说阿里巴巴坐在金山上,也许一点都不为过。
其实不只是淘宝,随着互联网技术及行业的不断发展,越来越多复杂的互联网平台或应用架构产生,大规模数据的处理需求日益明显,而如何有效挖掘这些大数据也正在成为大家关注的焦点。在这种形式下,云计算应运而生。云计算满足了企业对海量数据的低成本、高效处理,实现了不同类型数据的大量存储与海量计算。如何在“大数据”技术上用云计算构建下一代数据仓库、如何有效分析挖掘数据已经成为热门话题。
阿里云被称作是中国的亚马逊,他是以数据为中心的云计算服务公司,目标是打造互联网数据分享第一平台。本文将向您介绍,阿里云计算如何实现对海量数据的处理与计算、如何最大化的提高计算效率?如何有效挖掘大数据的价值?
张东晖,阿里巴巴集团数据平台总监,他在第二届云计算架构师峰会上提到,让数据变成真正的价值,并带来收益,光有数据是不够的,还需要三大利器:第一,要有好的商业模型,如阿里金融;第二,强大的数据团队,像现在流行的数据科学家;第三,淘金工具,比如阿里云的开放数据处理服务(ODPS)。
阿里巴巴集团数据平台总监张东晖
ODPS(Open Data Processing Service) 是基于阿里云计算平台构建的数据存储与分析的平台。ODPS提供大规模数据存储与数据分析,用户可以使用ODPS平台上提供的数据模型工具与服务,同时也支持用户自己发布数据分析工具。适用于金融、零售、制造业和电商企业的BI团队进行海量数据分析和挖掘。ODPS目前暂时只提供大规模数据存储与离线数据分析服务。
ODPS的三大技术特点:
1.安全性:当提到多租户、多使用概念时,用户立刻会想到安全问题,如果数据平台不能分享,解决安全问题会相对简单,但将数据分享,并可跨越边界被访问时,就对安全提出了很大的挑战。ODPS在这方面采用的是授权方式,对访问数据库的用户严格授权,任何人的程序都无法看到或破坏里面的数据。另外,ODPS为了实现多租户的独立,做了三层的安全认证体系,以保证用户对于安全的需要。
2.编程模型:对于一个框架来讲,应该支持可以扩展多种编程模型。ODPS支持多种编程模型,因为离线都是处理流程,一个处理流程可以用不同的编程模型编写。
3.存储模型:数据量越大,对于存储的要求就越高,存储的难度也会加大。ODPS在存储的时候是将物理存储和数据存储分开,这样可以有效解决数据的兼容性问题。从存储模型层面减少IO,数据采用统一的展现形式——表。对小文件提供OTS存储,另外,将元数据保存在OTS中,对高并发和规模扩展提供了很好的方式。除此之外,在存储模型上,还有带压缩的列存储,可以有效减少IO,提高效率。
ODPS 有效的满足了用户对于数据的存储和离线处理的需求。如何更进一步的让这些数据产生价值呢?
上海天津信息技术公司梁嵩认为,数据挖据是未来企业经营的核心,也是制高点,是统计学和数据库技术和人工技术的综合。大量的数据增长需要集中处理,同时,还要面对数据爆炸似增长带来的挑战,这就需要很大的计算能力。
对于互联网用户来说,搜索和精准推荐是两个实用的功能,可以帮助每个互联网的用户快速找到所需的工具。对于站长来说,这两个功能的实现随着数据信息量不断积累,实现内容的关联性也越难。无论是从站长的角度还是用户的角度来说,对于搜索和推荐都有着强烈的需求。
阿里云高级专家韩定一说:“用户对由业务带来的对搜索和精准营销的需求,要实现还要面对三大技术难点。第一是时效性和大规模,第二是精准与覆盖,第三是客户定制的能力,包括不同数据结构的定制,包括不同界面的定制。”同时,他表示大数据时代的个性化服务,营销方式越精准,用户的成本越低,网站的收益越高。阿里云通过云推荐、广告管家和开放云搜索来支持网站做精准的个性化服务。
阿里云高级专家韩定一