各大型网站架构分析收集(转载)

红雪中国 2011-09-25

1. PlentyOfFish 网站架构学习

http://www.dbanotes.net/arch/plentyoffish_arch.html

采取Windows技术路线的Web2.0站点并不多,除了MySpace,另外就是这个PlentyOfFish。这个站点提供“OnlineDating”服务。一个令人津津乐道的、惊人的数据是这个只有一个人(创建人MarkusFrind)的站点价值10亿,估计要让很多人眼热,更何况MarkusFrind每天只用两个小时打理网站–可操作性很强嘛。

2.从LiveJournal后台发展看大型网站系统架构以及性能优化方法

http://www.example.net.cn/archives/2006/03/olivejournaloio.html

LiveJournal是99年始于校园中的项目,几个人出于爱好做了这样一个应用,以实现以下功能:

*博客,论坛

*社会性网络,找到朋友

*聚合,把朋友的文章聚合在一起

LiveJournal采用了大量的开源软件,甚至它本身也是一个开源软件。

在上线后,LiveJournal实现了非常快速的增长:

*2004年4月份:280万注册用户。

*2005年4月份:680万注册用户。

*2005年8月份:790万注册用户。

*达到了每秒钟上千次的页面请求及处理。

*使用了大量MySQL服务器。

*使用了大量通用组件。

3.YouTube的架构扩展

http://www.dbanotes.net/opensource/youtube_web_arch.html

在西雅图扩展性的技术研讨会上,YouTube的CuongDo做了关于YouTubeScalability的报告。视频内容在GoogleVideo上有(地址),可惜国内用户看不到。

KyleCordes对这个视频中的内容做了介绍。里面有不少技术性的内容。值得分享一下。(KyleCordes的介绍是本文的主要来源)

http://v.youku.com/v_show/id_XMTE2MzYzMzI4.html国内优酷上面可以看到

4.WikiPedia技术架构学习分享

http://www.dbanotes.net/opensource/wikipedia_arch.html

维基百科(WikiPedia.org)位列世界十大网站,目前排名第八位。这是开放的力量。

来点直接的数据:

*峰值每秒钟3万个HTTP请求

*每秒钟3Gbit流量,近乎375MB

*350台PC服务器

5.Tailrank网站架构

http://www.dbanotes.net/review/tailrank_arch.html

每天数以千万计的Blog内容中,实时的热点是什么?Tailrank这个Web2.0Startup致力于回答这个问题。

专门爆料网站架构的ToddHoff对KevinBurton进行了采访。于是我们能了解一下Tailrank架构的一些信息。每小时索引2400万的Blog与Feed,内容处理能力为160-200Mbps,IO写入大约在10-15MBps。每个月要处理52T之多的原始数据。Tailrank所用的爬虫现在已经成为一个独立产品:spinn3r。

6.LinkedIn架构笔记

http://www.dbanotes.net/arch/linkedin.html

LinkedIn雇员有180个,在Web2.0公司中算是比较多的,不过人家自从2006年就盈利了,这在Web2.0站点中可算少的。用户超过1600万,现在每月新增100万,50%会员来自海外(中国用户不少,也包括我).

7.Yahoo!社区架构

http://www.dbanotes.net/arch/yahoo_arch.html

旧金山举行的QCon会议带给我们很多新鲜的信息。虽然没机会参加,但是看看各个网站”晒架构”也是个比较过瘾的事情。请参观并收藏这个页面:Architecturesyou’vealwayswonderedabout。

8.Craigslist的数据库架构

http://www.dbanotes.net/database/craigslist_database_arch.html

Craigslist绝对是互联网的一个传奇公司。根据以前的一则报道:

每月超过1000万人使用该站服务,月浏览量超过30亿次,(Craigslist每月新增的帖子近10亿条??)网站的网页数量在以每年近百倍的速度增长。Craigslist至今却只有18名员工(现在可能会多一些了)。

9.Fotolog.com的技术信息拾零

http://www.dbanotes.net/review/fotolog_arch.html

尽管是世界上最大的图片服务网站,Fotolog.com在国内的名气并不是很响亮,每当提到图片服务,很多人第一个会想起Flickr.但实际上Fotolog也的确是很猛的,Alexa上的排名一直在Flickr前面,目前注册用户超过1100万.而前不久也卖了一个好价钱,9000万美金.算下来的话,1个注册用户大约9美金.Yupoo的刘平阳可以偷着算算自己的网站如果卖给老外是怎样一个价格了.

10.Digg网站架构

http://www.dbanotes.net/arch/digg_arch_cache_and_shard.html

Digg工程师采用LAMP(Linux,Apache,MySQLandPHP)模式。这个Alexa排名在100左右的、自我估价1.5亿美金的站点目前有超过100台的PC服务器(足够少了),可以粗略分成三个部分:数据库服务器,Web服务器,搜索服务器。

11.Amazon的Dynamo架构

http://www.dbanotes.net/techmemo/amazon_dynamo.html

我在DBAnotes.net上记录过不少比较大的网站架构分析(eg:eBay[1],eBay[2]),Amazon一直找不到太多的资料。国庆期间读到了一篇关于AmazonDynamo的论文,非常精彩。AmazonDynamo这个高可用、可扩展存储体系支撑了Amazon不少核心服务.

12.财帮子(caibangzi.com)网站架构

http://www.dbanotes.net/arch/caibangzi_web_arch.html

财帮子(caibangzi.com)定位在”基金理财社区”。是国内访问量最大的基于Rubyonrails的startup项目。“理财”这个词据说是光大银行发明的,且不去管,不可否认的是,目前国内”理财”是个很有潜力的切入点。财帮子网站潜在用户群还是很大的。

13.了解一下Technorati的后台数据库架构

http://www.dbanotes.net/web/technorati_db_arch.html

目前处理着大约10Tb核心数据,分布在大约20台机器上.通过复制,多增加了100Tb数据,分布在200台机器上.每天增长的数据1TB.通过SOA的运用,物理与逻辑的访问相隔离, 似乎消除了数据库的瓶颈.值得一提的是,该扩展过程始终是利用普通的硬件与开源软件来完成的.毕竟,Web2.0站点都不是烧钱的主.从数据量来看,这绝对是一个相对比较大的Web2.0应用.

14.说说大型高并发高负载网站的系统架构

http://www.toplee.com/blog/?p=71

我在CERNET做过拨号接入平台的搭建,而后在Yahoo&3721从事过搜索引擎前端开发,又在MOP处理过大型社区猫扑大杂烩的架构升级等工作,同时自己接触和开发过不少大中型网站的模块,因此在大型网站应对高负载和并发的解决方案上有一些积累和经验,可以和大家一起探讨一下。

相关推荐

wq0 / 0评论 2019-10-22