Linux高可用性方案之Heartbeat的watchdog配置(原创) 编辑

昭君出塞 2011-09-18

Watchdog概述

在日常使用heartbeat接管资源的应用中,由于heartbeat无法对操作系统自身出现的问题进行监控。如果主节点操作系统挂起,一方面可能导致服务中断,另一方面由于主节点资源无法释放,而备份节点却接管了主节点的资源,此时就发生了两个节点同时争用一个资源的状况。

针对这个问题,就需要在Linux内核中启用一个叫watchdog的模块。watchdog是一个Linux内核模块,它通过定时向/dev/watchdog设备文件执行写操作,从而确定系统是否正常运行。如果watchdog认为内核挂起,就会重新启动系统,进而释放节点资源。

watchdog代码也支持用软件替换外部的硬件计时器,该软件叫做softdog,softdog维护一个内部计时器,在另一个进程写入/dev/watchdog设备文件时更新,如果softdog没有看到进程写入/dev/watchdog文件,它认为内核一定出故障了,它将启动一个内核恐慌,正常情况下,内核恐慌将导致系统关闭,但是你可以修改这个默认行为,将其改为默认行为为重启系统。

当你在/etc/ha.d/ha.cf文件中启用了watchdog选项后,Heartbeat将每隔相当于deadtime长的时间写入/dev/watchdog文件(或设备),因此,出现任何导致Heartbeat更新watchdog设备失败的事情,一旦watchdog超时周期(默认是一分钟)过期,watchdog将启动内核恐慌。

Watchdog的工作原理

Watchdog在实现上可以是硬件电路也可以是软件定时器,能够在系统出现故障时自动重新启动系统。在Linux内核下,watchdog的基本工作原理是:当watchdog启动后(即/dev/watchdog设备被打开后),如果在某一设定的时间间隔内/dev/watchdog没有被执行写操作,硬件watchdog电路或软件定时器就会重新启动系统。

/dev/watchdog是一个主设备号为10,从设备号130的字符设备节点。Linux内核不仅为各种不同类型的watchdog硬件电路提供了驱动,还提供了一个基于定时器的纯软件watchdog驱动。驱动源码位于内核源码树drivers\char\watchdog\目录下。

硬件与软件watchdog的区别

硬件watchdog必须有硬件电路支持,设备节点/dev/watchdog对应着真实的物理设备,不同类型的硬件watchdog设备由相应的硬件驱动管理。软件watchdog由一内核模块softdog.ko通过定时器机制实现,/dev/watchdog并不对应着真实的物理设备,只是为应用提供了一个与操作硬件watchdog相同的接口。

硬件watchdog比软件watchdog有更好的可靠性。软件watchdog基于内核的定时器实现,当内核或中断出现异常时,软件watchdog将会失效。而硬件watchdog由自身的硬件电路控制,独立于内核。无论当前系统状态如何,硬件watchdog在设定的时间间隔内没有被执行写操作,仍会重新启动系统。

一些硬件watchdog卡如WDT501P以及一些Berkshire卡还可以监测系统温度,提供了/dev/temperature接口。对于应用程序而言,操作软件、硬件watchdog的方式基本相同:打开设备/dev/watchdog,在重启时间间隔内对/dev/watchdog执行写操作。即软件、硬件watchdog对应用程序而言基本是透明的。

在任一时刻,只能有一个watchdog驱动模块被加载,管理/dev/watchdog设备节点。如果系统没有硬件watchdog电路,可以加载软件watchdog驱动softdog.ko。

测试Watchdog

只要在/etc/ha.d/ha.cf加入

watchdog /dev/watchdog

即可自动启用watchdog功能

可通过如下步骤确认

1、# grep misc /proc/devices

10misc

2、#cat/proc/misc|grepwatchdog

130watchdog

3、#lsmod|grepsoftdog

softdog99412

即可确认启用了watchdog功能如果没有生成/dev/watchdong设备,则可通过如下命令自行创建

mknod/dev/watchdogc10130

在主节点上可通过"killall-9heartbeat"命令关闭Heartbeat进程。由于是非法关闭Heartbeat进程,因此Heartbeat所控制的资源并没有释放。备份节点在很短一段时间没有收到主节点的响应后,就会认为主节点出现故障,进而接管主节点资源。在这种情况下,就出现了资源争用情况,两个节点都占用一个资源,造成数据冲突。针对这个情况,可以通过Linux提供的内核监控模块watchdog来解决这个问题,将watchdog集成到Heartbeat中。如果Heartbeat异常终止,或者系统出现故障,watchdog都会自动重启系统,从而释放集群资源,避免了数据冲突的发生。

在执行"killall-9heartbeat"时,会在/var/log/messages中看到如下信息:

Softdog:WDTdeviceclosedunexpectedly.WDTwillnotstop!

系统就会马上重启

参考至:http://linux.chinaitlab.com/linuxjq/744842_6.html

          http://book.51cto.com/art/200912/168038.htm

          http://aaa3060.blog.163.com/blog/static/2817338520104314466314/

          http://blog.sina.com.cn/s/blog_5fc3a8b60100x0ge.html

本文原创,转载请注明出处、作者

如有错误,欢迎指正

邮箱:[email protected]

相关推荐