当前位置:首页 >> 信息与通信 >>

SCTP偶联中断故障处理案例


SCTP 偶联中断故障处理
故障现象:
诺西端局 CSGS45 的单块 ESB 板故障,造成 SCTP 偶联的主通路中断,由于现 网局间 SCTP 偶联均配臵了双通路, 单块 ESB 板故障并不会导致局间 SCTP 偶联中 断。而实际情况是,CSGS45 至中兴局向部分 SCTP 偶联中断,而到华为局向和其 他诺西局向的 SCTP 偶联均正常,也就是说 SCTP 的双通路并未起到保护作用,对 此,我们进行了分析,并排除了故障。

原因分析:
故障现象

可能原因:1、备用通路不通; 2、诺西端局硬件故障或配置问题;3、中 兴端局硬件故障或配置问题

对可能原因 1 、1、备用 通路不通排查、确认

是否为该原因引发? N 对可能原因 2 、诺西端局 硬件故障或配置问题排 查、确认

Y

是否为该原因引发? N 对可能原因3、中兴端局 硬件故障或配置问题排 查、确认

Y

是否为该原因引发?

Y

Y

N 提供解决方案

故障是否消除? Y 经验总结

结束

分析判断可能原因: 1、备用通路不通 2、诺西端局硬件或配臵问题 3、中兴端局硬件或配臵问题

原因排查:
SCTP(STREAM CONTROL TRANSMISSION PROTOCOL 流控制传输协议)能在两 个端点之间提供稳定、有序的数据传递服务,在 SIGTRAN 协议的应用中,SCTP 上层用户是 SCN 信令的适配模块(如 M2UA、M3UA) ,下层是 IP 网。偶联实际上 是在两个 SCTP 端点之间建立的连接关系, 任何时刻两个 SCTP 端点之间能且仅能 建立一个偶联。通路则是一个端点将 SCTP 分组数据发送到对端端点特定传送地 址的路由。 在现网中,如下图 1 所示,两个端局之间配臵了 4 个偶联,每个偶联具有主 备两条通路,并采用了心跳机制,即当某条通路空闲时,本端端点会生成相应的 心跳消息并通过该空闲通路发送到对端端点, 而对端端点收到消息后将立即发回 对应的心跳确认消息。该机制被用来随时监视偶联通路的可用情况,当某一条通 路故障时,数据传送将立即切换到另一条通路上,以此来保持 SCTP 偶联的可靠 性和稳定性。

偶联1

通路1

偶联2 诺西端局 CSGS45

通路2 中兴端局 CSGS9

偶联3 偶联4

图 1 局间偶联示意图

GISU1
ESB1

CE9

诺西 GISU2 端局 CSGS 45 GISU3
ESB2

IP承载网

CE10

GISU4

图 2 诺西端局偶联配臵示意图

如上图所示, 诺西端局的偶联建立在 GISU 板上,每一块 GISU 板对应一个偶 联。每个偶联的两条通路分别通过两块 ESB 板连接直 IP 承载网,进而与对端局 相连。本次故障起因为 ESB1 板故障,但单块 ESB 板故障只会导致偶联 2 条通路 中的 1 条通路中断, 根据偶联的心跳机制, 数据传输将立即切换到另一条通路上, 整个偶联将不会受影响。而实际情况是 CSGS45 至中兴局向部分 SCTP 偶联中断, 而到华为局向和其他诺西局向的 SCTP 偶联均正常, 也就是说 SCTP 的双通路并未 起到保护作用,对此,我们进行了如下分析。 1、偶联备用通路不通 当偶联的主用通路中断后,备用通路未起到作用,导致偶联中断。因此,首 先排查备用通路是连通。通过 ZOYI::A;命令查询了偶联对应的 IP 地址如下。
ASSOCIATION SET NAME -------------------CSGS9BICC ASSOC SET ID -----------9 SCTP USER ROLE --------- -------M3UA SERVER

ASSOC. ASSOC ID PARAMETER SET IND UNIT IN UNIT NAME STATE --------- --------- ---------------- -------------------0 GISU-2 --MSSBICC SCTP-DOWN SOURCE ADDRESS 1 . . . . . : 10.157.32.38 SOURCE ADDRESS 2 . . . . . : 10.157.32.166 SOURCE PORT . . . . . . . : 2905 PRIMARY DEST. ADDRESS . . : 10.157.5.13/27 SECONDARY DEST. ADDRESS . : 10.157.5.14/27 DESTINATION PORT . . . . . : 8071 DATA STREAM COUNT . . . . : 16 ASSOC. ASSOC ID PARAMETER SET IND UNIT IN UNIT NAME STATE --------- --------- ---------------- -------------------1 GISU-4 --MSSBICC SCTP-DOWN SOURCE ADDRESS 1 . . . . . : 10.157.32.39 SOURCE ADDRESS 2 . . . . . : 10.157.32.167 SOURCE PORT . . . . . . . : 2905 PRIMARY DEST. ADDRESS . . : 10.157.5.13/27 SECONDARY DEST. ADDRESS . : 10.157.5.14/27 DESTINATION PORT . . . . . : 8072 DATA STREAM COUNT . . . . : 16 ASSOC. ASSOC ID PARAMETER SET IND UNIT IN UNIT NAME --------- --------- ---------------- --------------------

STATE

2

GISU-5

---

MSSBICC

SCTP-DOWN

SOURCE ADDRESS 1 . . . . . : 10.157.32.40 SOURCE ADDRESS 2 . . . . . : 10.157.32.168 SOURCE PORT . . . . . . . : 2905 PRIMARY DEST. ADDRESS . . : 10.157.5.13/27 SECONDARY DEST. ADDRESS . : 10.157.5.14/27 DESTINATION PORT . . . . . : 8073 DATA STREAM COUNT . . . . : 16 ASSOC. ASSOC ID PARAMETER SET IND UNIT IN UNIT NAME --------- --------- ---------------- -------------------3 GISU-8 4 MSSBICC

STATE ASP-DOWN

SOURCE ADDRESS 1 . . . . . : 10.157.32.41 SOURCE ADDRESS 2 . . . . . : 10.157.32.169 SOURCE PORT . . . . . . . : 2905 PRIMARY DEST. ADDRESS . . : 10.157.5.13/27 SECONDARY DEST. ADDRESS . : 10.157.5.14/27 DESTINATION PORT . . . . . : 8074 DATA STREAM COUNT . . . . : 16 SPECIFICATION VERSION . . : 1.0 (RFC) TRAFFIC MODE . . . . . . . : LOAD-SHARE ASP MESSAGES . . . . . . . : YES REGISTRATION REQUEST . . . : YES SSNM MESSAGES BROADCAST . : NO NETWORK APPEARANCE . . . . : 4294967295 ASP MESSAGES IN IPSP . . . : NO ROUTING CONTEXT . . . . . : --FIRST DATA STREAM NUMBER . : 1 TACK ......................: 2 SECONDS M3UA HB.INTERVAL...........: 15 SECONDS ACTIVATION DELAY...........: 0 SECONDS

其中 SOURCE ADDRESS 1 与 PRIMARY DEST. ADDRESS 对应了主用通路的两个 端点的 IP 地址,SOURCE ADDRESS 2 与 SECONDARY DEST. ADDRESS 对应了备用通 路两个端点的 IP 地址。利用 ZQRX 命令,对每个偶联的备用通路 IP 地址进行了 PING 测试,结果均能 PING 通,表明备用通路每个地址都是连通的。
< QRX:GISU,3:::IP="10.157.5.14",SRC="10.157.32.166",; LOADING PROGRAM VERSION 24.18-0 MSCi CSGS45 2013-01-21 17:23:36 PING, SENDING UNIT: GISU-2 PING 10.157.5.14 (10.157.5.14) from 10.157.32.166: 56 data bytes 64 bytes from 10.157.5.14: icmp_seq=0 ttl=251 time=26.921 ms

--- 10.157.5.14 ping statistics --1 packets transmitted, 1 packets received, 0% packet loss round-trip min/avg/max/stddev = 26.921/26.921/26.921/0.000 ms COMMAND EXECUTED

2、诺西端局硬件或配臵问题 诺西端局的偶联是由 GISU 板负责的,首先通过 ZUSI 命令查询各 GISU 板工 作状态均正常,且无任何告警,证明硬件无问题。
< ZUSI; LOADING PROGRAM VERSION 27.15-0 EXECUTION STARTED MSCi CSGS45 WORKING STATE OF UNITS UNIT PHYS STATE LOCATION GISU-0 003A SP-EX VMU-2 GISU-1 003B WO-EX VMU-2 GISU-2 003C WO-EX VMU-3 GISU-3 003D WO-EX VMU-3 GISU-4 003E WO-EX VMU-4 GISU-5 003F WO-EX VMU-5 GISU-6 0040 WO-EX VMU-6 GISU-7 0041 WO-EX VMU-7 GISU-8 0042 WO-EX VMU-8 GISU-9 0043 WO-EX VMU-9 GISU-10 0044 WO-EX VMU-10 GISU-11 0045 SP-EX VMU-10

2013-01-21 17:13:32 INFO IDLE IDLE

接下来查询建立在同一块 GISU 板上,但到其它局向的偶联状态。如下所示, 标黄的部分为到华为关口局 HYADS2 的偶联,且开在 GISU-2 和 GISU-4 板上,这 与到中兴 CSGS9 局的偶联开在同一块板件上。两者采用相同配臵,到华为关口局 的偶联正常,排除了因诺西端局配臵不当导致偶联中断的因素。
ASSOCIATION SET NAME ASSOC SET ID SCTP USER -------------------- ------------ --------- -------HYADS2BICC 6 M3UA ASSOC. ASSOC ID PARAMETER SET IND UNIT IN UNIT NAME --------- --------- ---------------- -------------------0 GISU-1 7 MSSBICC ROLE SERVER

STATE ASP-ACTIVE

SOURCE ADDRESS 1 . . . . . : 10.157.32.36 SOURCE ADDRESS 2 . . . . . : 10.157.32.164 SOURCE PORT . . . . . . . : 2905 PRIMARY DEST. ADDRESS . . : 10.157.129.2/27 SECONDARY DEST. ADDRESS . : 10.157.129.130/27 DESTINATION PORT . . . . . : 2906 DATA STREAM COUNT . . . . : 16 ASSOC. ASSOC ID PARAMETER SET

IND --1

UNIT IN UNIT NAME ------- --------- ---------------- -------------------GISU-0 7 MSSBICC

STATE ASP-ACTIVE

SOURCE ADDRESS 1 . . . . . : 10.157.32.37 SOURCE ADDRESS 2 . . . . . : 10.157.32.165 SOURCE PORT . . . . . . . : 2905 PRIMARY DEST. ADDRESS . . : 10.157.129.2/27 SECONDARY DEST. ADDRESS . : 10.157.129.131/27 DESTINATION PORT . . . . . : 2906 DATA STREAM COUNT . . . . : 16 ASSOC. ASSOC ID PARAMETER SET IND UNIT IN UNIT NAME --------- --------- ---------------- -------------------2 GISU-2 6 MSSBICC

STATE ASP-ACTIVE

SOURCE ADDRESS 1 . . . . . : 10.157.32.38 SOURCE ADDRESS 2 . . . . . : 10.157.32.166 SOURCE PORT . . . . . . . : 2905 PRIMARY DEST. ADDRESS . . : 10.157.129.3/27 SECONDARY DEST. ADDRESS . : 10.157.129.130/27 DESTINATION PORT . . . . . : 2906 DATA STREAM COUNT . . . . : 16 ASSOC. ASSOC ID PARAMETER SET IND UNIT IN UNIT NAME --------- --------- ---------------- -------------------3 GISU-4 6 MSSBICC

STATE ASP-ACTIVE

SOURCE ADDRESS 1 . . . . . : 10.157.32.39 SOURCE ADDRESS 2 . . . . . : 10.157.32.167 SOURCE PORT . . . . . . . : 2905 PRIMARY DEST. ADDRESS . . : 10.157.129.3/27 SECONDARY DEST. ADDRESS . : 10.157.129.131/27 DESTINATION PORT . . . . . : 2906 DATA STREAM COUNT . . . . : 16 SPECIFICATION VERSION . . : 1.0 (RFC) TRAFFIC MODE . . . . . . . : LOAD-SHARE ASP MESSAGES . . . . . . . : YES REGISTRATION REQUEST . . . : YES SSNM MESSAGES BROADCAST . : NO NETWORK APPEARANCE . . . . : 8

ASP MESSAGES IN IPSP . . . : NO ROUTING CONTEXT . . . . . : --FIRST DATA STREAM NUMBER . :

1

TACK ......................: 2 SECONDS M3UA HB.INTERVAL...........: 15 SECONDS ACTIVATION DELAY...........: 0 SECONDS

3、中兴端局硬件或配臵问题 1)中兴端局的偶联是由 SIPI 板负责的,经诊断 2 块 SIPI 单板工作状态均 正常,且无任何告警,证明硬件无问题。 2)查看中兴交换机 CSGS9 SCTP 偶联配臵,数据配臵正确,如下:

3) 、查看 BFD(双向转发检测:Bidirectional Forwarding Detection)功 能是否开启。BFD 功能可在极短时间内检测到转发路径中的错误,并触发切 换到备用路由、接口甚至是整个网络。 通过中兴 CSGS9 上执行 SHOW BFD SESSION;确认 CSGS9 到 CE 之间开启 了 BFD 功能且 BFD 状态为 UP 状态,正常。 在中兴交换机 CSGS9 上执行 SHOW IP ROUTE;截取 CSGS9 到 CSGS45 的路 由配臵如下:

从上图可以看出,CSGS45 的业务 IP 地址的路由数据配臵中的 BFD 绑定配臵 为 disable,即不绑定 BFD 功能。而 CE 侧开启了 BFD 自动检测功能,一旦主用 路由发生故障, 检测到交换机侧到目标局 CSGS45 的 BFD 绑定配臵为 disable, CE 就不会往备用路由送,从而导致所有 SCTP 偶联中断,信令局向不可达。

重新执行 ADD IP ROUTE 到 CSGS45 的路由配臵,将 BFD 绑定参数设臵为 enable,并存盘,重新查询发现告警消失,故障恢复,业务测试也正常。

经验总结:
1、偶联是 SCTP 协议的重要概念,偶联的连通,是两个端点之间数据正确传输的 重要保障。若两个局间的偶联中断,将导致局向不可达等重大故障。正因如此, 现网中各局向偶联均采用了主备的双通路配臵。 2、本次故障虽然是由诺西端局偶联主用通路 ESB 板故障导致,但暴露出偶联双 通路保护失效的问题,对排除网络安全隐患具有一定意义。 3、 通常在开局时就已经开启了全局 BFD 检测功能, 在中兴交换机进行 BICC 局向 对接时,V3.07.61 之后的版本需在增加对端路由时将 BFD 绑定设定为 enbale 状 态。 4、在新建交换机或者新对接 BICC 局向时,需进行 SCTP 主备路由倒换测试,及 时发现问题,从而杜绝安全隐患问题。



相关文章:
更多相关标签: