软件设计 2017-05-24
我也发现这个问题所以,找了这篇arp导致网卡经常上不了网的问题
最近,我单位碰到一个非常奇怪的问题,一台P4品牌电脑,内置英特尔网卡,一直以来用得挺好,浏览因特网,内网的通信都很正常。突然有一天,发现这台计算机在浏览因特网时时通时断,ping因特网上的地址时,也是通一下,断一下,但ping内网时什么问题也没有,和内网的通信也非常正常,就是和因特网通信时有这种现象,非常令人费解。这台电脑的IP地址为192.168.24.55,防火墙的IP地址为192.168.24.7。
故障分析:检查物理链路
我单位所有访问因特网的电脑都是通过Netscreen NS25防火墙来连接的,如果说是防火墙的问题,那其他的电脑访问因特网都挺正常,没有时通时断的现象。根据这台电脑ping的现象来看,问题似乎应该在下三层,而时通时断的现象好像是典型的物理层的问题,那么首先开始检查链路。
这台电脑接在一台Cisco三层交换机的某一个端口上,防火墙也接在这台三层交换机上,在三层交换机上启用了路由,配置上肯定没有问题。先检查电脑到交换机的网线,如果说这根网线有问题,那么这台电脑与内网的通信也应该有问题,通过对这根网线的测试证实没有问题。防火墙到交换机的跳线就更应该没有问题了,因为其他的电脑都没有问题。由此可以判断链路是没有问题的,网卡会有问题吗?肯定也不会,因为它跟内网的通信是正常的,所以网卡肯定也没有问题。那么就可以排除物理层的问题了。
故障分析:模拟数据通信
再看网络层,这台电脑能够访问因特网,只不过有丢包而已,似乎网络层也不应该有问题,那么所有问题似乎就集中在数据链路层了。数据链路层的问题会是哪里呢?思考了几天,毫无头绪,最后只好仔细地想一想网络通信的过程,看能不能找到问题。
假设这台电脑有一个数据包需要发送到因特网,那么首先它会检查目的地址与本机地址是否在一个网络中,如果不在一个网络中,就会将数据包发送给默认网关。本案例中目的IP为因特网地址,肯定不在一个网络中,所以数据包会发送给默认网关。在这里默认网关为那台Cisco三层交换机,IP地址为192.168.24.10。这时192.168.24.55这台电脑会检查本机的ARP表,查找192.168.24.10所对应的MAC地址,如果在ARP表中没有发现相应的ARP表项,它就会发送一个ARP请求包,并将它发送给网络中的所有设备来获得192.168.24.10的MAC地址。由于ARP请求包是以广播方式发送的,网络中的所有设备都会接收到这个包,然后传送给网络层检验。
当Cisco三层交换机接收到这个ARP请求时,就会检查本机的IP地址和ARP请求包中的目的IP地址是否相同,如果相同,交换机就会做出ARP应答,将它的MAC地址发送给源,也就是192.168.24.55这台电脑。这台电脑收到ARP应答包后,就会将交换机的IP地址(192.168.24.10)和MAC地址写入ARP表,然后将交换机的MAC地址作为目的MAC地址封装到数据包中,并将数据包发送到交换机。交换机在收到数据包后,就会检查目的IP是否在本网段中,若发现不在本网段中,就会查找路由表,看看有没有到目的IP的路由条目,如果没有,就会将数据包发送给默认路由。在本案例中这台交换机的默认路由是那台IP为192.168.24.7的防火墙。所以交换机就会发送一个ARP广播,以获得防火墙的MAC地址。防火墙做出ARP应答后,交换机就会将防火墙的MAC地址作为目的MAC地址封装到数据包中,数据包就会发送到防火墙,然后防火墙就会又重复上述过程,将数据包发送给因特网上的目的地址。这一切过程都是正常的,没有什么问题。在电脑和交换机的ARP表中都能找到相应的ARP记录,用tracert命令跟踪路由也是正常的。那问题究竟在什么地方呢?看来还得继续分析。
故障分析:过滤ARP表
在数据包到达了因特网上的目的地址之后,响应的数据包要返回到这台电脑,那么它也应该重复前面的过程。返回数据包先到达防火墙,在防火墙的ARP表中寻找目的IP地址所对应的MAC地址,如果没有,就会发送ARP请求,得到目的电脑的MAC地址,将电脑的IP地址和MAC地址写入防火墙的ARP表,封装后发送给这台电脑。这一切看起来都是正常的,但为什么会出现时通时断的现象呢?由这台电脑在内网都是正常的现象来判断,在三层交换机上应该是没有问题的,只是在访问因特网时才出现问题,最后决定从防火墙上开始检查。
Telnet上防火墙,检查防火墙配置,一切正常;检查端口,一切正常;检查路由表,也是一切正常。疑惑中,似乎不知该从哪里下手了。突然间,想起来为了防止内网用户盗用IP地址上网,在防火墙上做了IP地址和MAC地址的绑定!对,检查ARP表。于是输入命令get arp,显示一大串ARP表的信息,竟然全部是IP地址和MAC地址的静态绑定的信息,仅有一条动态的,那是防火墙的下一跳的IP地址和下一跳的MAC地址的信息,就是没有192.168.24.55的ARP表项,难道是ARP表的问题?似乎看到了一线希望!
于是决定先清除几个静态绑定的ARP表项试试。先用unset arp命令一连清除了6条静态绑定的ARP表项,然后在那台电脑上ping因特网的地址,居然不丢包了!?困扰我几天的问题难道就这样解决了吗?我简直有点不敢相信,又让我的同事在这台电脑上面测试一下,登录QQ,浏览网页,收发邮件……居然一切正常,再也没有原来时通时断的现象了!再Telnet到防火墙上,执行get arp命令一看,192.168.24.55那台电脑的ARP表项赫然在目。看来问题真的解决了!高兴之余坐下来再好好想一想原因吧。
故障溯源
这台Netscreen NS 25防火墙最多支持128个ARP表项,如果不进行静态绑定,ARP表项会不断地进行更新,超时的自动会删掉,所以不会出现ARP表项被占满的情况。而如果是静态绑定,那么它永远就不会被清除,永远会占据一个ARP表项,留给动态使用的ARP表项空间就会越来越少,直到全部占满,导致我所碰到的情况。那么既然如此,有朋友会问了,既然都占满了,其他的电脑就会完全不通,为什么会出现时通时断的现象呢?于是我将ARP表项数了一下,静态绑定的刚好达到127个,剩下一个给防火墙的下一跳的地址占用了,注意这个是动态的,当它的更新时间到了之后,就被删掉了,那台电脑就占用了这个表项,于是网络就通了,因为还有其他的电脑在不断地访问因特网,所以192.168.24.55的ARP表项一到达更新时间马上就会被防火墙的下一跳的地址所占用,这时网络就不通了。其实在这时,我单位的所有机器在访问因特网时都会出现时通时断的现象,只不过防火墙的下一跳的地址占用ARP表项的时间长,因特网中断的时间在大家能够忍受的范围内,都没有发觉罢了。因为防火墙的下一跳的地址占用ARP表项的时间长,192.168.24.55的ARP表项写不进ARP表,产生超时,所以它不通的时间就长一些,就出现时通时断的现象了。