大型网站后台架构的Web Server与缓存

1.1 Web server

Webserver 用来解析HTTP协议。当web 服务器接收到一个HTTP请求时，会返回一个HTTP响应，例如送回一个HTML页面。为了处理一个请求，web服务器可以响应一个静态页面或者图片。进行页面跳转，或者把动态响应的产生委托给一些其它的程序完成，比如CGI,JSP,servlets,ASP，PHP脚本。

当用户访问一个网站时，首先用户通过查询DNS服务器，得到该域名对应的IP地址，然后使用这个IP地址来进行访问。用户的请求是一个url地址，在web 服务器端，url地址对应web服务器上的文件系统中的某个网站文件的路径。Web server的作用就是解析HTTP协议，通过用户发来请求的url地址从web服务器的文件系统中找到用户需要的HTML页面、静态文件，然后返回给用户。如果用户访问的是动态页面，则将请求转发到应用服务器来执行。

1.1.1 FastCGI

1.1.1.1 CGI

CGI(Common Gateway Interface) ，指运行在服务器上，提供同客户端HTML页面的接口。多数CGI程序被用来解释处理来自表单的输入信息，并在服务器产生相应的处理，或将相应的信息反馈给浏览器。

1.1.1.2 FastCGI

FastCGI是语言无关的、可伸缩架构的CGI开放扩展，其主要行为是将CGI解释器进程保持在内存中并因此获得较高的性能。而CGI解释器的反复加载是CGI性能低下的主要原因。如果CGI解释器保持在内存中并接受FastCGI进程管理器的调度，则可以提供良好的性能、伸缩性能和Fail-over特性等。

FastCGI的工作原理如下：

(1) FastCGI进程管理器自身初始化，启动多个CGI解释器进程(多php-cgi进程)并等待来自web server的连接。启动php-cgi FastCGI进程时，可以配置以TCP和UNIX套接字两种方式启动。

(2)当客户端请求到达web服务器时，web服务器将请求采用TCP协议或者UNIX套接字方式转发到FastCGI主进程，FastCGI主进程选择并连接到一个CGI解释器(子进程)。Web服务器将CGI环境变量和标准输入法发送到FastCGI子进程php-cgi。

(3)FastCGI子进程完成处理后将标准输出和错误信息从同一连接返回web服务器。当FastCGI子进程关闭连接时，请求便告知处理完成。FastCGI子进程接着等待并处理来自FastCGI进程管理器的下一个连接。

FastCGI的优点如下：

(1)稳定性。fastcgi是以独立的进程池运行cgi，单独一个进程死掉，系统可以轻松的丢弃，然后重新分配新的进程。

(2)安全性。fastcgi和宿主server完全独立，fastcgi如果down了，不会影响到server的性能。

(3)高性能。fastcgi和宿主server分开，大负荷的IO处理留给web server进行，比如大量图片、CSS等静态文件的IO操作，完全由web server处理完成。^[2]

1.1.1.3 Lighttpd服务器

Lighttpd是一个具有非常低的内存开销，cpu占用率低，性能好的轻量级web server。支持fastCGI,CGI,输出压缩，URL重写，Alias等重要功能。

Lighttpd使用FastCGI方式运行php。

1.1.1.4 Apache服务器

Apache是世界上使用最多的web服务器，市场占有率50%以上。Apache支持SSL技术，支持多个虚拟主机。Apache是以进程为基础结构，进程相对线程消耗更多系统资源。相对Lighttpd和Nginx，Apache是一款重量级的web服务器。总体来讲，Apache web 服务器具有以下特性:

(1) 支持HTTP1.1通信协议。

(2) 支持通用网关接口。

(3) 支持基于ip、域名、端口的虚拟主机。

(4) 支持服务器端包含指令(ssl)。

(5) 支持FastCGI。

(6) 支持url重写。

1.1.1.5 Nginx服务器

1.1.1.6 Lighttpd、Apache、Nginx比较

Lighttpd是一个单进程模型的web server，内存使用量很小。Nginx在内存分配方面，表现良好。它使用多线程来处理请求，这使得多个线程之间可以共享内存资源，从而使它的内存使用量大大减少。此外,Nginx使用分阶段的内存分配策略，按需分配，及时释放，所以总体占用内存很小。可以支持较大的并发连接数。Apache在运行时使用较大的内存，Apache是多进程模型。Apache使用基于内存池策略的内存管理方法，这种方法使得Apache在运行开始时便一次性申请大片内存作为内存池，这样在随后需要的时候只在内存池中直接获取，不需要再分配。显然，Apache很占用内存。根据国内金山技术经理、系统架构师张宴给出的统计信息，2009年的web server使用情况如表4-1-1-5所示。

表4-1-1-5 各种webserver市场占有率排名

Web server	2008.12使用数	占有率	2009.01使用数	占有率	占有率变化
Apache	95678052	51.24%	96947298	52.26%	+1.02%
IIS	63126940	33.81%	61038371	32.91%	-0.90%
Google	10455103	5.60%	9868819	5.32%	-0.28
Nginx	3354329	1.80%	3462551	1.87%	+0.07%
Lighttpd	3046333	1.63%	2989416	1.61%	-0.02%

1.2 缓存

在计算机系统中，缓存有很多种。比如CPU内部的一级缓存、二级缓存。文件系统的缓存，磁盘的缓存。在大型网站的后台部署过程中，也灵活运用了各级缓存。主要有客户端的浏览器缓存，服务器端的web server自身缓存，代理缓存，分布式缓存，数据库自身的缓存等。本节主要分析一下代理缓存和分布式缓存。

1.2.1 代理缓存

常用的代理缓存有varnish和squid。如图4-2-1所示。

大型网站后台架构的Web Server与缓存

图4-2-1 代理缓存(黄色部分)

1.2.1.1 Squid

Squid是一个高性能的代理缓存服务器，可以用来加快浏览网页的速度，提高客户机的访问命中率。Squid不仅支持HTTP协议，还支持FTP、SSL、WAIS等协议。Squid用一个单独的、非模块化的、I/O驱动的进程来处理所有的客户端请求。

Squid的原理如下：

(1)每一台squid代理服务器上存有若干个颗磁盘。每颗磁盘又分割成多个分区，每一个分区又可建立很多目录，目录下存放着具体的文件(object)。

(2)squid通过查询表的方式来定位某个资源的位置。所查询的表有两种，一种是Hash table，一种是Digest table。Hash table记录着所有Digest table表信息，所以Hash table可以称之为目录或者提纲。而Digest table记录了磁盘上每个分区、每个目录里存放的缓存摘要，所以Digest table可以称之为摘要或者索引。所以，Squid接到请求后先查询Hashtable，根据Hash table所指向的Digest table，再查询所需要的文件。

(3)squid服务器存在两种工作关系，一种为Child-Parent，当child squid server没有用户需要的数据时，就向parent squid server发送请求，并持续等待，直到parent squid server回应为止；另一种为Sibling，当本地squid server没有用户请求的数据时，会向sibling server发送请求，如果sibling server没有资料则会向上级sibling或者internet发送数据请求。

所以，综上所述，squid运行模式如下：

大型网站后台架构的Web Server与缓存

1.1 Web server

1.1.1 FastCGI

1.1.1.1 CGI

1.1.1.2 FastCGI

1.1.1.3 Lighttpd服务器

1.1.1.4 Apache服务器

1.1.1.5 Nginx服务器

1.1.1.6 Lighttpd、Apache、Nginx比较

1.2 缓存

1.2.1 代理缓存

1.2.1.1 Squid

相关推荐