当前位置:首页 >> 政史地 >>

专题五:交换机CPU使用率高问题定位


Security Level:

交换机CPU使用率高问题定位

www.huawei.com

HUAWEI TECHNOLOGIES CO., LTD.

目录
?

诊断工具
? ?

display工具 log工具

/>?

报文冲击导致的CPU使用率高问题

?

CPU使用率高问题信息采集

display cpu-usage [ slot x ]
<Quidway>display cpu-usage CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 40% Max: 54% CPU Usage Stat. Time : 2008-05-27 09:21:46 CPU utilization for five seconds: 50%: one minute: 49%: five minutes: 47% Max CPU Usage Stat. Time : 2008-05-26 09:30:07. TaskName BOX _TIL _EXC bcmRX VIDL TICK … … FOAM FTS IPCQ …… SOCK CPU 0% 0% 0% 2% 50% 0% Runtime(CPU Tick High/Tick Low) Task Explanation 0/ 35090 BOX Output 0/ 0 Infinite loop event task 0/ 0 Exception Agent Task 0/ 3b69a bcmRX 0/af3cd700 DOPRA IDLE 0/ 1414bb

空闲任务

任务描述
0% 25% 0% 10% 0/ 0/ 0/ 0/ 0 416 10105f ecb2fc FOAM FTS IPCQIPC task for single queue SOCKPacket schedule and process

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

3

display cpu-defend statistics
<Quidway>display cpu-defend statistics all Statistics on slot 0: ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) ------------------------------------------------------------------------------arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 … … igmp 2240 0 35 0 nap 0 0 0 0 nd 1424 0 16 0 snmp 0 0 0 0 tcp 0 0 0 0 telnet 0 0 0 0 ttl-expired 0 0 0 0 unknown-multicast 0 0 0 0 … … ------------------------------------------------------------------------------? ?

对于报文冲击导致CPU高的情形,可进一步通过cpu-defend统计查询功能确认具体的协议类型。
协议上送过多判断标准:该协议对应的Drop列有大量计数,且相对于Pass计数占比较高,例如上表 中的arp-request类型。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 4

display logbuffer
<Quidway>display logbuffer Logging buffer configuration and contents : enabled Allowed max buffer size : 1024 Actual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 395

Feb 28 2012 16:37:40 Quidway %%01SNMP/4/DECODE_ERR(l):Failed to login th rough SNMP, because of the decoded PDU error. (Ip=10.71.109.69, Times=4) … … Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(40%), SNPG(30%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) … …

?

CPU使用率高往往还伴有告警、日志出现,可以通过查看日志缓冲区的历史记录,搜索 CPU_USAGE_HIGH日志,以便确认CPU占用率TOP 3的任务。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

5

目录
? ?

诊断工具 报文冲击导致的CPU使用率高问题
? ?

定位思路 故障举例

?
? ?

第一步:检查CPU占用率TOP任务
第二步:检查上送过多的协议类型 第三步:按协议类型分别处理

?

CPU使用率高问题信息采集

定位思路

CPU使用 率检查

确认 TOP 任务

确认 报文 类型

协议 分类 处理

其它情 形信息 采集

? ?

最常见协议冲击CPU致使用率高主要表现在bcmRX、FTS、SOCK等任务上。

bcmRX是设备硬件中断触发的的收包任务,它会将收取到的报文立刻转交软件层面的FTS任务进行
分发处理。 对于属于三层协议处理的报文,往往还伴随有SOCK任务占用率高的情况出现。

?

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

7

故障举例
故障描述:交换机产生CPU_USAGE_HIGH告警:
Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(27%), VPS(15%), bcmRX(5%). (CpuUsage=99%, Threshold=80%)

备注: 如果网管需要主动监测CPU使用率,可通过OID:1.3.6.1.4.1.2011.5.25.31.1.1.1.1.5获取。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

8

第一步:检查CPU占用率及TOP任务
<Quidway>display cpu-usage [ slot x ] CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 85% Max: 99% CPU Usage Stat. Time : 2001-04-25 16:15:00 CPU utilization for five seconds: 90%: one minute: 85%: five minutes: 86% Max CPU Usage Stat. Time : 2001-04-24 17:17:07. TaskName BOX _TIL _EXC VIDL TICK CLKI DEV bcmRX CHAL FTS MOD
?

CPU

Runtime(CPU 0% 0% 0% 15% 0% 0% 0% 5% 0% 23% 0%

Tick High/Tick Low) Task Explanation 0/ dad772 BOX Output 0/ 0 Infinite loop event task 0/ 0 Exception Agent Task 8/b51c8f1b DOPRA IDLE 0/ 91e2d7f 0/ 0 CLKI 0/ 12202d9 DEV Device 0/ cb817af bcmRX 0/ 0 CHAL 0/ 5a876 FTS 0/ 0 MOD Module Management

通过故障现象中的告警信息,可以确认CPU占用率TOP任务中包含有bcmRX、FTS报文收取任务, 基本可以确认属于协议收报过多导致CPU占用率上升。 可以通过CPU使用率查询功能进一步核实TOP任务中是否包含有收包任务;可以通过slot指明查询的 槽位号。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 9

?

第二步:确认报文类型
<Quidway>display cpu-defend statistics all Statistics on slot 0: ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) ------------------------------------------------------------------------------arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 dhcpv6-reply 0 0 0 0 dhcpv6-request 0 0 0 0 icmp 0 0 0 0 icmpv6 0 0 0 0 igmp 2240 0 35 0 … …

?

通过cpu-defend统计查询功能,确认哪类协议存在冲击情形,可以通过各类协议的Drop列计数进 行确认。如果某类协议Drop计数非常大,且Drop列计数相对于Pass列计数占比较高(例如达到20%

以上),则认为属于此类协议存在冲击CPU情况。例如上表中的arp-request,后续按照第三步中的
ARP协议对应处理方式进行处理。
?

注意,查看统计时,需要关注协议冲击位于哪个槽位,即“Statistics on slot x”。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 10

第三步:按协议类型分别处理-1
?

ARP
通过display interface检查哪些接口存在Broadcast数量异常,并在此接口配置广播流量抑 制,限制单个接口广播速率(例如限制为50pps):
# broadcast-suppression pps 50. #

?

DHCP
请确认本机是否需要开启DHCP,如果不需要请在全局undo dhcp enable;
如果需要,建议在下行接口开启dhcp error-down功能(具体信息请参考用户手册): # dhcp snooping check dhcp-rate enable dhcp snooping check dhcp-rate trigger error-down # 并建议通过基于dhcp报文的流量统计功能,来发现哪个接口发送了过多的DHCP报文。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

11

第三步:按协议类型分别处理-2
?

TCP/ARP-MISS
此种情况一般是由于网络中存在针对不存在的某些直连网段IP地址进行扫描导致的. 当有数
据报文发送到这些不存在的IP地址时,会将数据上送CPU处理,以触发ARP学习过程,建议 此时在每个vlanif接口下调整ARP学习延迟时间:
# interface vlanif1000 arp-fake expire-time 30 #

?

TTL-EXPIRED
如果不需要本机在tracert中显示,建议丢弃此类报文:
# cpu-defend policy test deny packet-type ttl-expired # Cpu-defend-policy test global Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

12

第三步:按协议类型分别处理-3
?

Reserved-multicast
此类报文一般属路由协议报文,目的IP地址224.0.0.X,如果设备不需要此类报文(或者启用 OSPF路由但未起组播功能),可以直接丢弃处理(或者升级到最新版本):
# cpu-defend policy test deny packet-type reserved-multicast #

Cpu-defend-policy test global
Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

13

第三步:按协议类型分别处理-4
?

ND/ICMPV6/DHCPV6
如果本机不需要IPV6功能,建议直接丢弃此类报文:
# cpu-defend policy test deny packet-type nd deny packet-type icmpv6 deny packet-type dhcpv6-request deny packet-type dhcpv6-reply # Cpu-defend-policy test global Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

14

第三步:按协议类型分别处理-5
?

OSPF
请检查是否存在路由表项过大,或者OSPF PEER过多情形,并根据实际情况考虑对路由进行 优化,以降低路由表项数目或OSPF PEER数目。

?

SNMP
检查是否存在频繁的网管操作,例如获取接口流量,建议适当降低网管获取交换机信息的 频率。

?

如果不属于上述常见协议类型,或者其它情况导致的CPU高情形,建议立刻搜集设备当前诊断 信息、日志信息、本次定位过程的操作记录等,并返回华为服务处理。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

15

目录
? ? ?

诊断工具 报文冲击导致的CPU使用率高问题 CPU使用率高问题信息采集

信息搜集
?

搜集cfcard中的logfile目录下的日志信息,针对没有cfcard的 盒式设备,请通过如下命令搜集:
display logbuffer

display trapbuffer

?

搜集设备诊断信息,命令为:
display diagnostic-information

?

搜集cpu-defend统计信息(10分钟内多搜集几次)
display cpu-defend statistics all

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

17

信息搜集
?

搜集TOP任务的监控信息:
通过_hidecmd或diagnose进入诊断视图;

1.

2.

通过display cpu-usage检查cpu占用较高任务,例如EOAM较高:
[Quidway-hidecmd] display cpu-usage [ slot x ] -- 可指定槽号检查 CPU Usage Stat. Cycle: 10 (Second) CPU Usage : 38% Max: 99%

CPU Usage Stat. Time : 2013-01-06 03:08:57
CPU utilization for five seconds: 38%: one minute: 33%: five minutes: 35%. TaskName BOX _TIL _EXC VIDL TICK STND EOAM CPU Runtime(CPU Tick High/Tick Low) Task Explanation 0% 0% 0% 61% 0% 0% 24% 0/ 18f78e 0/ 0/ 0 0 BOX Output Infinite loop event task Exception Agent Task DOPRA IDLE STNDStandby task EOAMEthernet OAM 802.1ag Huawei Confidential 18

0/b7abe65c 0/ 143074e 0/ b3412 0/4994c174

HUAWEI TECHNOLOGIES CO., LTD.

信息搜集
3. 通过display task查找任务对应的taskid,例如EOAM的taskid为79:
[Quidway-hidecmd] display task [ slot x ] -- 可指定槽号 name BOX _TIL _EXC VIDL TICK STND FTPS DEV TCTL NAP EOAM TRAF SLAG Tid 0x6ec5230 0x6ebaf90 0x6eb0cf0 0x6ea6a50 0x6e9c7b0 0x6daa8b0 0x6dbc240 0x6e7ffd0 0x6c6a460 0x6c601c0 0x6c55f20 0x6c4bc80 0x6c419e0 VOS_Tid priority 1 2 3 4 5 6 7 8 77 78 79 80 81 8 250 135 1 205 80 100 140 100 100 100 100 100 Status sleep eventblock eventblock preemptready preemptready eventblock sleep eventblock eventblock eventblock eventblock eventblock eventblock CPU Total(Millsecs) 36830 0 0 79669745 476396 18097 230536 14818 45 45 29468818 25659 56 ==============================================================================

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

19

信息搜集
4. 根据taskid设置监控阀值。阀值的设置可参考相应任务的现有占用率,如上面的 EOAM模块CPU利用率为24%,那么我们设置监控比这个值低一点,例如设置 成20%,具体命令为: set task-monitor-record threshold [threshold] taskid [taskid]
[Quidway-hidecmd]set task-monitor-record threshold 20 taskid 79 [ slot x ] – 可指定槽号 Task Monitor has been set on slot 5, TaskId is 79, Threshold is 5

5. 查看任务监控记录,具体命令为:display task-monitor-record
[Quidway-hidecmd]display task-monitor-record [ slot x ] – 可指定槽号 =========== Task Cpu-usage Monitor Record (slot: 5) =========== Current Index: 0

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

20

信息搜集
6. 最后,必须要关闭任务监控,具体命令为:set task-monitor-record threshold 1 taskid 0。设置taskid为0,就表示关闭任务监控记录。
[Quidway-hidecmd]set task-monitor-record threshold 1 taskid 0 [ slot x] – 可指定槽号 Task Monitor has been closed on slot 5

7. 如果是接口板CPU占用率高,需要按照上述1~6步骤搜集相应接口板槽位的 任务监控信息(相应的命令行中指定slot即可)。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

21

附录
?

本附件包含有各类交换机任务的详细描述

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

22

Thank you
www.huawei.com
Copyright?2011 Huawei Technologies Co., Ltd. All Rights Reserved. The information in this document may contain predictive statements including, without limitation, statements regarding the future financial and operating results, future product portfolio, new technology, etc. There are a number of factors that could cause actual results and developments to differ materially from those expressed or implied in the predictive statements. Therefore, such information is provided for reference purpose only and constitutes neither an offer nor an acceptance. Huawei may change the information at any time without notice.


相关文章:
思科4500交换机high CPU的排错方法
通过 show prcoess cpu sort | ex 0.0 定位是什么导致的 high cpu,比如 99...思科交换机4500系列交换... 46页 5下载券 路由器交换机高CPU利用率... 33...
Cisco 4500 CPU过高的排除方法
核心交换机 CPU 过高故障现象此类故障在永诚保险和...此 Debug 只开启计数, 不会占用太多的设备资源。 ...5:51 Protocol-aging-revie 0.20 0.00 2 0 ...
H3C交换机排除故障
cpu 最近 5S、1m、5m 占用率 查看 cpu 使用记录...发现问题没有解决 2.Dis cpu/Dismem 查看交换机的...专题推荐 2014教师资格材料分析辅... 2014小学教师...
【交换机在江湖之维护宝典】如何轻松定位STP故障
交换机在江湖之维护宝典】如何轻松定位STP故障_IT/计算机_专业资料。其实STP...如果使能TC保护、修改STP收敛方式后,PPI任务的CPU利用率仍然较高,小伙 特性攻略...
Cat6500交换机高CPU利用率分析报告
专题五:交换机CPU使用率... 23页 4下载券 查看交换机的CPU及内存情... 2页 2下载券 NOVELL 4_X服务器高CPU利... 2页 免费 CAT6K CPU利用率高问题处...
华为测试题+答案
非常困难的,那么 5.路由环路会引起哪些现象或问题?...华为交换机运行STP时,缺省情况下交换机的优先级为(...当你打开任务管理器后发现CPU使用率达到了百分之...
2013年春季江苏省计算机一级B理论真题答案
因特网中的路由器是一种功能更强的分组交换机,它...当前使用的个人计算机中,在 CPU 内部,比特的两种...A.统一资源定位器 B.统一超链接 C.统一定位 D....
查看交换机的CPU及内存情况
查看交换机的CPU及内存情况_IT/计算机_专业资料。...因为 CPU 占用率高了) 1 11312 1253015 9 0.00...5 0 1 0 0.00% 0.00% 0.00% 0 Chunk ...
浅谈Cisco4500系列交换机CPU超载
路由器交换机高CPU利用率... 33页 免费 通过交换...5 10 30 20 0 Bg 5Sec Min Hour 500 500 500...接着层层往下查找即可定位到异常包的源头,最后封挡...
华为交换机状态查看常用命令
华为交换机状态查看常用命令_计算机硬件及网络_IT/...(R) Software, Version 5.70 (V100R006C03) 5...在网络运行中,CPU 占用率过 高常常会导致业务异常,...
更多相关标签: