环境:Linux Ubuntu 2.6.27-7 + PHP Version 5.3.2 + Apache/2.2.9
我们可以利用UNIX/Linux的一些工具和一此专门的日志分析工具对日志文件进行分析。
日志一方面是我们分析网站的第一手资料,一方面却是吞噬大量磁盘空间的罪魁祸首。所以别忘了定期转储或删除一些老的日志文件。
Web服务器日志轮循
Web服务器日志轮循比较好的方式有三种:第一种方法是利用Linux系统自身的日志文件轮循机制logrotate;第二种方法是利用Apache自带的日志轮循程序rotatelogs;第三种是使用在Apache的FAQ中推荐发展已经比较成熟的一个日志轮循工具 cronolog(本文以此为例)。
对于大型的Web服务来说,往往使用实用负载均衡技术提高Web站点服务能力,这样后台有多个服务器提供Web服务,大大方便了服务的分布规划和扩展性。如果有多个服务器的分布需要对日志进行合并,统一进行统计分析。因此为了保证统计的精确性,需要严格按照每天的时段来自动生成日志。
用cronolog实现日志轮循
首先需要下载和安装cronolog,可以到http://www.cronolog.org下载最新版本的cronolog。下载完毕以后,解压安装即可。方法如下所示:
- tar xvfz cronolog-1.6.2.tar.gz
- cd cronolog-1.6.2
- ./configure
- make
- make check
- make install
在Ubuntu下直接apt-get install cronolog安装
这样就完成了cronolog的配置和安装,默认情况下cronolog是安装在/usr/local/sbin下。
修改Apache日志配置命令如下所示:
- <VirtualHost *:80>
- DocumentRoot /web/www/eetag.com
- ServerName www.eetag.com
- ServerAdmin webmaster@eetag.com
- CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" combined
- </VirtualHost>
生成日志和路径内容如下:/web/logs/eetag.com/20100929(年月日)/11(小时)/05.log(分)
- 119.145.71.82 - - [29/Sep/2010:11:08:04 +0800] "GET /c.php?a=roger HTTP/1.1" 200 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10"
- 119.145.71.82 - - [29/Sep/2010:11:08:04 +0800] "GET /c.php?a=roger HTTP/1.1" 200 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10"
- LogFormat "%h\"%{%Y-%m-%d %H:%M:%S}t\"%q\"%{Referer}i\"%{User-agent}i" mysql
- SetEnvIf Request_URI \.gif$ gif-image
- CustomLog "|/usr/local/sbin/hiidolog /web/logs/mall/%Y%m%d/%H/%M.log" mysql env=gif-image
从上面的日志文件可以看出,日志记录会记录客户端的IP地址、访问发生的时间、访问请求的页面、Web服务器对于该请求返回的状态信息、返回给客户端的内容的大小(以字节为单位)、该请求的引用地址、客户浏览器类型等信息。
自定义日志文件的内容格式
- <VirtualHost *:80>
- DocumentRoot /web/www/eetag.com
- ServerName www.eetag.com
- ServerAdmin webmaster@eetag.com
- LogFormat "%a,%>s,%{%S}t,%q" rogerFormat //定义一个名叫rogerFormat的内容格式
- CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" rogerFormat
- </VirtualHost>
只记录图片���问日志
- <VirtualHost *:80>
- DocumentRoot /web/www/eetag.com
- ServerName www.eetag.com
- ServerAdmin webmaster@eetag.com
- LogFormat "%a,%>s,%{%S}t,%q" rogerFormat //定义一个名叫rogerFormat的内容格式
- SetEnvIf Request_URI \.gif$ gif-image
- CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" rogerFormat env=gif-image
- </VirtualHost>
具体的日志格式,可以参考apache官方手册:http://httpd.apache.org/docs/2.2/mod/mod_log_config.html#formats
Apache文档已经给出了所有可用于格式串的变量及其含义,下面是其译文:
- %...a: 远程IP地址
- %...A: 本地IP地址
- %...B: 已发送的字节数,不包含HTTP头
- %...b: CLF格式的已发送字节数量,不包含HTTP头。例如当没有发送数据时,写入‘-’而不是0。
- %e: 环境变量FOOBAR的内容
- %...f: 文件名字
- %...h: 远程主机
- %...H 请求的协议
- %i: Foobar的内容,发送给服务器的请求的标头行。
- %...l: 远程登录名字(来自identd,如提供的话)
- %...m 请求的方法
- %n: 来自另外一个模块的注解“Foobar”的内容
- %o: Foobar的内容,应答的标头行
- %...p: 服务器响应请求时使用的端口
- %...P: 响应请求的子进程ID。
- %...q 查询字符串(如果存在查询字符串,则包含“?”后面的部分;否则,它是一个空字符串。)
- %...r: 请求的第一行
- %...s: 状态。对于进行内部重定向的请求,这是指*原来*请求的状态。如果用%...>s,则是指后来的请求。
- %...t: 以公共日志时间格式表示的时间(或称为标准英文格式)
- %t: 以指定格式format表示的时间
- %...T: 为响应请求而耗费的时间,以秒计
- %...u: 远程用户(来自auth;如果返回状态(%s)是401则可能是伪造的)
- %...U: 用户所请求的URL路径
- %...v: 响应请求的服务器的ServerName
- %...V: 依照UseCanonicalName设置得到的服务器名字
- “...”表示一个可选的条件。如果没有指定条件,则变量的值将以“-”取代。分析前面来自默认httpd.conf文件的 LogFormat指令示例,可以看出它创建了一种名为“common”的日志格式,其中包括:远程主机,远程登录名字,远程用户,请求时间,请求的第一行代码,请求状态,以及发送的字节数。