记一次SDN网络由于LEAF点部署异常故障处理

事件起因:

一个站点的原来网络故障,疑似收发器或者光纤有问题,正好此处有新施工安装的无线网络的POE交换机,于是将网络接入此交换机,将接口配置为access口。

故障现象:

将接口设置为access口后,用户无法获取业务地址,将电脑接入vlan 4093网络,地址获取正常。

处理方式:

1. 联系400进行远程诊断,通过AD CAMPLUS控制台,操作日志,将uam改为warn。异常复现,将日志下载进行查看。

image

分析发现用户在认证时,无法使用认证点进行认证。怀疑认证点配置错误,经过排查,发现认证点密码设置错误(此为分发的AAA域密码),将密码重新设置,故障依旧。

image

2. 在排查至overlay环境时,发现LEAF点设备同步失败,通过调试发现,Netconf配置密码设置错误,此密码为交换机telnet登录密码,将密码重新设置,故障依旧。

image

3. 此时排查遇到难点,不过偶然在点击认证设备页面时发现,正常的LEAF节点的设备角色为Leaf,而异常的为空,下图为正常图片。日志排查也发现结点不为Leaf节点。

image

此时将认证点删除,并重新添加,进入通用组,点击部署预览,发现出现错误,无法查询已出故障的认证点设备,进行查询的时候也进行报错。

解决方法:

将认证点重新删除,并添加,用户可以正常认证,但是笔记本及台式机获取IP地址正常(但非常慢),哑终端设备不正常。

经过诊断得知:ACL3001 配置没有正常下发,通过手动写入配置,Portal认证正常,但是DHCP分配地址出现问题:获取IP地址正常(但非常慢),哑终端设备不正常。

具体表现为:

DHCP四次握手,DHCP服务器接收到哑终端请求包,但是DHCP分发包,哑终端没有回应。

后排查原因,是因为链路使用光收发器,切换到光纤模块,用户地址获取正常。

2019-7-15 16:32:40

THE END