奶牛老爹 2011-04-28
文章分类:Web前端
原文:
http://www.ibm.com/developerworks/cn/linux/l-cn-squid/
本文在介绍squid反向代理的工作原理的基础上,指出反向代理技术在提高网站访问速度,增强网站可用性、安全性方面有很好的用途。作者在具体的实验环境下,利用DNS轮询和Squid反向代理技术,实现了网站的负载均衡,从而提高了网站的可用性和可靠性。
现在有许多大型的门户网站如SINA都采用squid反向代理技术来加速网站的访问速度,可将不同的URL请求分发到后台不同的WEB服务器上,同时互联网用户只能看到反向代理服务器的地址,加强了网站的访问安全。
反向代理的概念
反向代理服务器又称为WEB加速服务器,它位于WEB服务器的前端,充当WEB服
务器的内容缓存器。其系统结构如图1
图1.系统结构
反向代理服务器是针对WEB服务器设置的,后台WEB服务器对互联网用户是透明的,用户只能看到反向代理服务器的地址,不清楚后台WEB服务器是如何组织架构的。当互联网用户请求WEB服务时,DNS将请求的域名解析为反向代理服务器的IP地址,这样URL请求将被发送到反向代理服务器,由反向代理服务器负责处理用户的请求与应答、与后台WEB服务器交互。利用反向代理服务器减轻了后台WEB服务器的负载,提高了访问速度,同时避免了因用户直接与WEB服务器通信带来的安全隐患。
回页首
Squid反向代理的实现原理
目前有许多反向代理软件,比较有名的有Nginx和Squid。Nginx是由IgorSysoev为俄罗斯访问量第二的Rambler.ru站点开发的,是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP代理服务器。
Squid是由美国政府大力资助的一项研究计划,其目的为解决网络带宽不足的问题,支持HTTP,HTTPS,FTP等多种协议,是现在Unix系统上使用、最多功能也最完整的一套软体。下面将重点介绍Squid反向代理的实现原理和在提高网站性能方面的应用。
Squid反向代理服务器位于本地WEB服务器和Internet之间,组织架构如图2:
图2.组织架构
客户端请求访问WEB服务时,DNS将访问的域名解析为Squid反向代理服务器的IP地址,这样客户端的URL请求将被发送到反向代理服务器。如果Squid反向代理服务器中缓存了该请求的资源,则将该请求的资源直接返回给客户端,否则反向代理服务器将向后台的WEB服务器请求资源,然后将请求的应答返回给客户端,同时也将该应答缓存在本地,供下一个请求者使用。
Squid反向代理一般只缓存可缓冲的数据(比如html网页和图片等),而一些CGI脚本程序或者ASP、JSP之类的动态程序默认不缓存。它根据从WEB服务器返回的HTTP头标记来缓冲静态页面。有四个最重要HTTP头标记:
Last-Modified:告诉反向代理页面什么时间被修改
Expires:告诉反向代理页面什么时间应该从缓冲区中删除
Cache-Control:告诉反向代理页面是否应该被缓冲
Pragma:用来包含实现特定的指令,最常用的是Pragma:no-cache
回页首
利用Squid反向代理加速网站实例
本实例的域名是wenjin.cache.ibm.com.cn,通过DNS的轮询技术,将客户端的请求分发给其中一台Squid反向代理服务器处理,如果这台Squid缓存了用户的请求资源,则将请求的资源直接返回给用户,否则这台Squid将没有缓存的请求根据配置的规则发送给邻居Squid和后台的WEB服务器处理,这样既减轻后台WEB服务器的负载,又提高整个网站的性能和安全性。该系统结构图3如下:
图3.系统结构
配置的系统环境:
一台DNS服务器:操作系统Freebsd,软件BIND9.5,IP192.168.76.222;
三台Squid服务器:操作系统LinuxAS4,软件Squid3.0,相应的IP如下:
Squid1:192.168.76.223
Squid2:192.168.76.224
Squid3:192.168.76.225
三台WEB服务器:操作系统LinuxAS4,应用软件Tomcat5.0+Mysql,相应的IP地址如下:
webServer1:210.82.118.195
webServer2:192.168.76.226
webServer1:192.168.76.227
应用软件的安装和配置
配置DNS服务器
软件利用Freebsd自带的bind9.5。然后针对该系统配置bind,首先修改bind的配置文件/etc/namedb/named.conf,在文件中添加
zone"cache.ibm.com.cn"{
typemaster;
file"master/cache.ibm.com.cn";
};
再在/etc/namedb/master目录下添加cache.ibm.com.cn文件,该文件的内容如下:
$TTL3600
@INSOAsearch.ibm.com.cn.root.ibm.com.cn.(
20080807;Serial
3600;Refresh
900;Retry
3600000;Expire
3600);Minimum
INNSsearch.ibm.com.cn.
1INPTRlocalhost.ibm.com.cn.
wenjinINA192.168.76.223
wenjinINA192.168.76.224
wenjinINA192.168.76.225
这样当用户请求的时候,DNS通过轮询机制将wenjin.cache.ibm.com.cn的域名解析为192.168.76.223、192.168.76.224和192.168.76.225其中之一。
配置完成后,运行rndcstart启动bind服务。可在/etc/rc.conf中设置named_enable="YES"使得开机自启动。
用ps–A|grepnamed查看bind服务是否起来;
用nslookupwenjin.cache.ibm.com.cn测试bind服务是否正常运行。
配置Squid1服务器
下载squid-3.0.STABLE8.tar.gz源码包,将其放在/home目录下
解压缩tar–zxvfsquid-3.0.STABLE8.tar.gz
设置配置参数:cdsquid-3.0.STABLE10
./configure–prefix=/usr/local/squid
将squid安装在/usr/local目录下
编译安装:make&makeinstall安装完以后会在/usr/local目录下看见squid目录。
配置squid配置文件
编辑squid.conf文件,vi/usr/local/squid/etc/squid.conf
Java代码
cache_effective_usersquid
cache_effective_groupsquid
#########设定squid的主机名,如无此项squid将无法启动
visible_hostnamesquid1.nlc.gov.cn
#############配置squid为加速模式#################
http_port80accelvhostvport
icp_port3130
#####配置squid2、squid3为其邻居,当squid1在其缓存中没有找到请求的资源时,
通过ICP查询去其邻居中取得缓存
cache_peersquid2.ibm.com.cnsibling803130
cache_peersquid3.ibm.com.cnsibling803130
#####squid1的三个父节点,originserver参数指明是源服务器,
round-robin参数指明squid通过轮询方式将请求分发到其中一台父节点;
squid同时会对这些父节点的健康状态进行检查,如果父节点down了,
那么squid会从剩余的origin服务器中抓取数据
cache_peer210.82.118.195parent80800no-queryoriginserverround-robin\
name=webServer1
cache_peer192.168.76.226parent80800no-queryoriginserverround-robin\
name=webServer2
cache_peer192.168.76.227parent80800no-queryoriginserverround-robin\
name=webServer3
####将wenjin.cache.ibm.com.cn域的请求通过RR轮询方式转发到三个父节点中的一个
cache_peer_domainwebServer1webServer2webServer3wenjin.cache.ibm.com.cn
#####下面是一些访问控制、日志和缓存目录的设置
acllocalnetsrc192.168.76.223192.168.76.224192.168.76.225
aclallsrc0.0.0.0/0.0.0.0
http_accessallowall
icp_accessallowlocalnet
cache_log/usr/local/squid/var/logs/cache.log
access_log/usr/local/squid/var/logs/access.logsquid
cache_dirufs/usr/local/squid/var/cache/100016256
#######对squid的一些优化###############
maximum_object_size10240KB###能缓存的最大对象为10M
maximum_object_size_in_memory512KB###内存中缓存的最大对象512K
cache_mem256MB###squid用于缓存的内存量
保存后:wq退出。
在/etc/hosts文件中添加
192.168.76.223squid1.ibm.com.cn
192.168.76.224squid2.ibm.com.cn
192.168.76.225squid3.ibm.com.cn
保存后:wq退出。
检查squid配置文件正确与否:/usr/local/squid/bin/squid–kparse
生成缓存目录/usr/local/squid/bin/squid–z
启动squid:/usr/local/squid/bin/squid
配置squid2和squid3服务器
squid2和squid3服务器的配置方法和配置参数和squid1一样,配置完成后,分别启动这两个服务器上的squid服务。
在squid的日志文件cache.log中,出现如下日志信息则说明三台squid之间成功配置为sibling,且配置了三个父代理。
2008/11/1710:08:47|ConfiguringSiblingsquid1.ibm.com.cn/80/3130
2008/11/1710:08:47|ConfiguringSiblingsquid3.ibm.com.cn/80/3130
2008/11/1710:08:47|ConfiguringParent210.82.118.195/8080/0
2008/11/1710:08:47|ConfiguringParent192.168.76.226/8080/0
2008/11/1710:08:47|ConfiguringParent192.168.76.227/8080/0
2008/11/1710:08:47|Readytoserverequests.
测试
测试之前,保证DNS服务、三台squid服务和三台web服务都正常起来。在客户端输入http://wenjin.cache.ibm.com.cn,则正确的显示该网页。服务器端的响应对客户端是透明的,客户端不知道请求是由哪台WEB服务器处理的;而且其中某台Squid服务器或WEB服务器发生故障,也不影响服务的正常运行。
回页首
总结
Squid是一个开源的软件,利用它的反向代理技术可以提高网站系统的访问速度。本文在真实的网络环境下,利用三台squid反向代理服务器加速了网站的性能,同时结合DNS轮询技术实现了网站的负载均衡。经过一段时间的测试和试运行,该网站的访问速度和可用性方面都有很大的提高,从未出现过网站服务中断情况。
参考资料
squid3.0反向代理加速模式配置:http://www.hiadmin.com/squid-3%E5%8A%A0%E9%80%9F%E6%A8%A1%E5%BC%8F%E9%85%8D%E7%BD%AE/
Linux下DNS轮询与Squid反向代理结合:http://www.souzl.com/article/2008/1112/article_453.html
在developerWorksLinux专区寻找为Linux开发人员(包括Linux新手入门)准备的更多参考资料,查阅我们最受欢迎的文章和教程。
在developerWorks上查阅所有Linux技巧和Linux教程。
某些公司会墙特定网站,如果你有一个可访问的域名和服务器,就可以通过nginx反向代理来来解决这些问题。比如现在我们用mirror.example.com镜像www.baidu.com,以下是详细操作。