当前位置:首页 >> 政史地 >>

专题五:交换机CPU使用率高问题定位


Security Level:

交换机CPU使用率高问题定位

www.huawei.com

HUAWEI TECHNOLOGIES CO., LTD.

目录
?

诊断工具
? ?

display工具 log工具

?

报文冲击导致的CPU使用率高问题

?

CPU使用率高问题信息采集

display cpu-usage [ slot x ]
<Quidway>display cpu-usage CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 40% Max: 54% CPU Usage Stat. Time : 2008-05-27 09:21:46 CPU utilization for five seconds: 50%: one minute: 49%: five minutes: 47% Max CPU Usage Stat. Time : 2008-05-26 09:30:07. TaskName BOX _TIL _EXC bcmRX VIDL TICK … … FOAM FTS IPCQ …… SOCK CPU 0% 0% 0% 2% 50% 0% Runtime(CPU Tick High/Tick Low) Task Explanation 0/ 35090 BOX Output 0/ 0 Infinite loop event task 0/ 0 Exception Agent Task 0/ 3b69a bcmRX 0/af3cd700 DOPRA IDLE 0/ 1414bb

空闲任务

任务描述
0% 25% 0% 10% 0/ 0/ 0/ 0/ 0 416 10105f ecb2fc FOAM FTS IPCQIPC task for single queue SOCKPacket schedule and process

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

3

display cpu-defend statistics
<Quidway>display cpu-defend statistics all Statistics on slot 0: ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) ------------------------------------------------------------------------------arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 … … igmp 2240 0 35 0 nap 0 0 0 0 nd 1424 0 16 0 snmp 0 0 0 0 tcp 0 0 0 0 telnet 0 0 0 0 ttl-expired 0 0 0 0 unknown-multicast 0 0 0 0 … … ------------------------------------------------------------------------------? ?

对于报文冲击导致CPU高的情形,可进一步通过cpu-defend统计查询功能确认具体的协议类型。
协议上送过多判断标准:该协议对应的Drop列有大量计数,且相对于Pass计数占比较高,例如上表 中的arp-request类型。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 4

display logbuffer
<Quidway>display logbuffer Logging buffer configuration and contents : enabled Allowed max buffer size : 1024 Actual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 395

Feb 28 2012 16:37:40 Quidway %%01SNMP/4/DECODE_ERR(l):Failed to login th rough SNMP, because of the decoded PDU error. (Ip=10.71.109.69, Times=4) … … Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(40%), SNPG(30%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) … …

?

CPU使用率高往往还伴有告警、日志出现,可以通过查看日志缓冲区的历史记录,搜索 CPU_USAGE_HIGH日志,以便确认CPU占用率TOP 3的任务。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

5

目录
? ?

诊断工具 报文冲击导致的CPU使用率高问题
? ?

定位思路 故障举例

?
? ?

第一步:检查CPU占用率TOP任务
第二步:检查上送过多的协议类型 第三步:按协议类型分别处理

?

CPU使用率高问题信息采集

定位思路

CPU使用 率检查

确认 TOP 任务

确认 报文 类型

协议 分类 处理

其它情 形信息 采集

? ?

最常见协议冲击CPU致使用率高主要表现在bcmRX、FTS、SOCK等任务上。

bcmRX是设备硬件中断触发的的收包任务,它会将收取到的报文立刻转交软件层面的FTS任务进行
分发处理。 对于属于三层协议处理的报文,往往还伴随有SOCK任务占用率高的情况出现。

?

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

7

故障举例
故障描述:交换机产生CPU_USAGE_HIGH告警:
Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(27%), VPS(15%), bcmRX(5%). (CpuUsage=99%, Threshold=80%)

备注: 如果网管需要主动监测CPU使用率,可通过OID:1.3.6.1.4.1.2011.5.25.31.1.1.1.1.5获取。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

8

第一步:检查CPU占用率及TOP任务
<Quidway>display cpu-usage [ slot x ] CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 85% Max: 99% CPU Usage Stat. Time : 2001-04-25 16:15:00 CPU utilization for five seconds: 90%: one minute: 85%: five minutes: 86% Max CPU Usage Stat. Time : 2001-04-24 17:17:07. TaskName BOX _TIL _EXC VIDL TICK CLKI DEV bcmRX CHAL FTS MOD
?

CPU

Runtime(CPU 0% 0% 0% 15% 0% 0% 0% 5% 0% 23% 0%

Tick High/Tick Low) Task Explanation 0/ dad772 BOX Output 0/ 0 Infinite loop event task 0/ 0 Exception Agent Task 8/b51c8f1b DOPRA IDLE 0/ 91e2d7f 0/ 0 CLKI 0/ 12202d9 DEV Device 0/ cb817af bcmRX 0/ 0 CHAL 0/ 5a876 FTS 0/ 0 MOD Module Management

通过故障现象中的告警信息,可以确认CPU占用率TOP任务中包含有bcmRX、FTS报文收取任务, 基本可以确认属于协议收报过多导致CPU占用率上升。 可以通过CPU使用率查询功能进一步核实TOP任务中是否包含有收包任务;可以通过slot指明查询的 槽位号。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 9

?

第二步:确认报文类型
<Quidway>display cpu-defend statistics all Statistics on slot 0: ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) ------------------------------------------------------------------------------arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 dhcpv6-reply 0 0 0 0 dhcpv6-request 0 0 0 0 icmp 0 0 0 0 icmpv6 0 0 0 0 igmp 2240 0 35 0 … …

?

通过cpu-defend统计查询功能,确认哪类协议存在冲击情形,可以通过各类协议的Drop列计数进 行确认。如果某类协议Drop计数非常大,且Drop列计数相对于Pass列计数占比较高(例如达到20%

以上),则认为属于此类协议存在冲击CPU情况。例如上表中的arp-request,后续按照第三步中的
ARP协议对应处理方式进行处理。
?

注意,查看统计时,需要关注协议冲击位于哪个槽位,即“Statistics on slot x”。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 10

第三步:按协议类型分别处理-1
?

ARP
通过display interface检查哪些接口存在Broadcast数量异常,并在此接口配置广播流量抑 制,限制单个接口广播速率(例如限制为50pps):
# broadcast-suppression pps 50. #

?

DHCP
请确认本机是否需要开启DHCP,如果不需要请在全局undo dhcp enable;
如果需要,建议在下行接口开启dhcp error-down功能(具体信息请参考用户手册): # dhcp snooping check dhcp-rate enable dhcp snooping check dhcp-rate trigger error-down # 并建议通过基于dhcp报文的流量统计功能,来发现哪个接口发送了过多的DHCP报文。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

11

第三步:按协议类型分别处理-2
?

TCP/ARP-MISS
此种情况一般是由于网络中存在针对不存在的某些直连网段IP地址进行扫描导致的. 当有数
据报文发送到这些不存在的IP地址时,会将数据上送CPU处理,以触发ARP学习过程,建议 此时在每个vlanif接口下调整ARP学习延迟时间:
# interface vlanif1000 arp-fake expire-time 30 #

?

TTL-EXPIRED
如果不需要本机在tracert中显示,建议丢弃此类报文:
# cpu-defend policy test deny packet-type ttl-expired # Cpu-defend-policy test global Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

12

第三步:按协议类型分别处理-3
?

Reserved-multicast
此类报文一般属路由协议报文,目的IP地址224.0.0.X,如果设备不需要此类报文(或者启用 OSPF路由但未起组播功能),可以直接丢弃处理(或者升级到最新版本):
# cpu-defend policy test deny packet-type reserved-multicast #

Cpu-defend-policy test global
Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

13

第三步:按协议类型分别处理-4
?

ND/ICMPV6/DHCPV6
如果本机不需要IPV6功能,建议直接丢弃此类报文:
# cpu-defend policy test deny packet-type nd deny packet-type icmpv6 deny packet-type dhcpv6-request deny packet-type dhcpv6-reply # Cpu-defend-policy test global Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

14

第三步:按协议类型分别处理-5
?

OSPF
请检查是否存在路由表项过大,或者OSPF PEER过多情形,并根据实际情况考虑对路由进行 优化,以降低路由表项数目或OSPF PEER数目。

?

SNMP
检查是否存在频繁的网管操作,例如获取接口流量,建议适当降低网管获取交换机信息的 频率。

?

如果不属于上述常见协议类型,或者其它情况导致的CPU高情形,建议立刻搜集设备当前诊断 信息、日志信息、本次定位过程的操作记录等,并返回华为服务处理。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

15

目录
? ? ?

诊断工具 报文冲击导致的CPU使用率高问题 CPU使用率高问题信息采集

信息搜集
?

搜集cfcard中的logfile目录下的日志信息,针对没有cfcard的 盒式设备,请通过如下命令搜集:
display logbuffer

display trapbuffer

?

搜集设备诊断信息,命令为:
display diagnostic-information

?

搜集cpu-defend统计信息(10分钟内多搜集几次)
display cpu-defend statistics all

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

17

信息搜集
?

搜集TOP任务的监控信息:
通过_hidecmd或diagnose进入诊断视图;

1.

2.

通过display cpu-usage检查cpu占用较高任务,例如EOAM较高:
[Quidway-hidecmd] display cpu-usage [ slot x ] -- 可指定槽号检查 CPU Usage Stat. Cycle: 10 (Second) CPU Usage : 38% Max: 99%

CPU Usage Stat. Time : 2013-01-06 03:08:57
CPU utilization for five seconds: 38%: one minute: 33%: five minutes: 35%. TaskName BOX _TIL _EXC VIDL TICK STND EOAM CPU Runtime(CPU Tick High/Tick Low) Task Explanation 0% 0% 0% 61% 0% 0% 24% 0/ 18f78e 0/ 0/ 0 0 BOX Output Infinite loop event task Exception Agent Task DOPRA IDLE STNDStandby task EOAMEthernet OAM 802.1ag Huawei Confidential 18

0/b7abe65c 0/ 143074e 0/ b3412 0/4994c174

HUAWEI TECHNOLOGIES CO., LTD.

信息搜集
3. 通过display task查找任务对应的taskid,例如EOAM的taskid为79:
[Quidway-hidecmd] display task [ slot x ] -- 可指定槽号 name BOX _TIL _EXC VIDL TICK STND FTPS DEV TCTL NAP EOAM TRAF SLAG Tid 0x6ec5230 0x6ebaf90 0x6eb0cf0 0x6ea6a50 0x6e9c7b0 0x6daa8b0 0x6dbc240 0x6e7ffd0 0x6c6a460 0x6c601c0 0x6c55f20 0x6c4bc80 0x6c419e0 VOS_Tid priority 1 2 3 4 5 6 7 8 77 78 79 80 81 8 250 135 1 205 80 100 140 100 100 100 100 100 Status sleep eventblock eventblock preemptready preemptready eventblock sleep eventblock eventblock eventblock eventblock eventblock eventblock CPU Total(Millsecs) 36830 0 0 79669745 476396 18097 230536 14818 45 45 29468818 25659 56 ==============================================================================

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

19

信息搜集
4. 根据taskid设置监控阀值。阀值的设置可参考相应任务的现有占用率,如上面的 EOAM模块CPU利用率为24%,那么我们设置监控比这个值低一点,例如设置 成20%,具体命令为: set task-monitor-record threshold [threshold] taskid [taskid]
[Quidway-hidecmd]set task-monitor-record threshold 20 taskid 79 [ slot x ] – 可指定槽号 Task Monitor has been set on slot 5, TaskId is 79, Threshold is 5

5. 查看任务监控记录,具体命令为:display task-monitor-record
[Quidway-hidecmd]display task-monitor-record [ slot x ] – 可指定槽号 =========== Task Cpu-usage Monitor Record (slot: 5) =========== Current Index: 0

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

20

信息搜集
6. 最后,必须要关闭任务监控,具体命令为:set task-monitor-record threshold 1 taskid 0。设置taskid为0,就表示关闭任务监控记录。
[Quidway-hidecmd]set task-monitor-record threshold 1 taskid 0 [ slot x] – 可指定槽号 Task Monitor has been closed on slot 5

7. 如果是接口板CPU占用率高,需要按照上述1~6步骤搜集相应接口板槽位的 任务监控信息(相应的命令行中指定slot即可)。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

21

附录
?

本附件包含有各类交换机任务的详细描述

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

22

Thank you
www.huawei.com
Copyright?2011 Huawei Technologies Co., Ltd. All Rights Reserved. The information in this document may contain predictive statements including, without limitation, statements regarding the future financial and operating results, future product portfolio, new technology, etc. There are a number of factors that could cause actual results and developments to differ materially from those expressed or implied in the predictive statements. Therefore, such information is provided for reference purpose only and constitutes neither an offer nor an acceptance. Huawei may change the information at any time without notice.


相关文章:
案例分析一次C4506交换机CPU利用率过高的处理过程
5 秒、1 分钟、5 分钟内 Cat4k Mgmt LoPri 进程的 CPU 占用率分别为 91.69% 92.18% 92.23% 显然是这个进程消耗了大量的 CPU 运行资源, 从而导致交换机...
查看交换机的CPU及内存情况
查看交换机的CPU及内存情况_IT/计算机_专业资料。...CPU 占用率太高,就可能是感染病毒了: 例子如下:(...5 0 1 0 0.00% 0.00% 0.00% 0 Chunk ...
二轮专题五:地理空间定位和重点区域考查
高考资源网(ks5u.com) 您身边的高考专家 二轮专题五 地理空间定位和重点区域考查 一、单项选择题(本大题共 25 小题.每小题 2 分,共 50 分)读图 1,我国...
浅谈Cisco4500系列交换机CPU超载
路由器交换机高CPU利用率... 33页 免费 通过交换...5 10 30 20 0 Bg 5Sec Min Hour 500 500 500...接着层层往下查找即可定位到异常包的源头,最后封挡...
Cat6500交换机高CPU利用率分析报告
专题五:交换机CPU使用率... 23页 4下载券 查看交换机的CPU及内存情... 2页 2下载券 NOVELL 4_X服务器高CPU利... 2页 免费 CAT6K CPU利用率高问题处....
cisco交换机查看配置及日常维护命令
cisco交换机查看配置及日常维护命令_计算机硬件及网络...5 秒钟、1 分钟和 5 分钟的平均 CPU 使用率。正常...在排查故障时查看 CDP 邻居的时候可以快速定位设备...
Quidway S3552系列以太网交换机维护手册(V1.01)
6 S3552 系列交换机维护手册 五、常见问题定位方法(一)CPU 占用率高现象:CPU 占用率高 原因:非法报文攻击交换机定位方法 判断方法: 检查任务,看 Ish0 ...
CCNA笔记
CPU内存方面说,开销更低 对网络进行编址时,...一般不会在本层使用 快速以太网定位 为高性能 PC ...HSSI 5.交换机的主要接口 数据传输接口 RJ-45 ...
自动化专题报告 20081059
2005 年我国首次把美国 CISCO 千兆网络交换机通过 ...多用户和多 CPU 的双计算机主机热备份处理 也应用...问题; 三是提出了煤矿井下供电系统 故障判断与定位...
CCNA题库 4
专题推荐 北师大二附理科学霸高中... 东北师大附中理科学霸高... 西安交大附中...下列哪种情况会导致配置了 VTP 的交换机发出总结通告? 五分钟的更新计时器到期...
更多相关标签: