当前位置:首页 >> 政史地 >>

专题五:交换机CPU使用率高问题定位


Security Level:

交换机CPU使用率高问题定位

www.huawei.com

HUAWEI TECHNOLOGIES CO., LTD.

目录
?

诊断工具
? ?

display工具 log工具

/>?

报文冲击导致的CPU使用率高问题

?

CPU使用率高问题信息采集

display cpu-usage [ slot x ]
<Quidway>display cpu-usage CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 40% Max: 54% CPU Usage Stat. Time : 2008-05-27 09:21:46 CPU utilization for five seconds: 50%: one minute: 49%: five minutes: 47% Max CPU Usage Stat. Time : 2008-05-26 09:30:07. TaskName BOX _TIL _EXC bcmRX VIDL TICK … … FOAM FTS IPCQ …… SOCK CPU 0% 0% 0% 2% 50% 0% Runtime(CPU Tick High/Tick Low) Task Explanation 0/ 35090 BOX Output 0/ 0 Infinite loop event task 0/ 0 Exception Agent Task 0/ 3b69a bcmRX 0/af3cd700 DOPRA IDLE 0/ 1414bb

空闲任务

任务描述
0% 25% 0% 10% 0/ 0/ 0/ 0/ 0 416 10105f ecb2fc FOAM FTS IPCQIPC task for single queue SOCKPacket schedule and process

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

3

display cpu-defend statistics
<Quidway>display cpu-defend statistics all Statistics on slot 0: ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) ------------------------------------------------------------------------------arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 … … igmp 2240 0 35 0 nap 0 0 0 0 nd 1424 0 16 0 snmp 0 0 0 0 tcp 0 0 0 0 telnet 0 0 0 0 ttl-expired 0 0 0 0 unknown-multicast 0 0 0 0 … … ------------------------------------------------------------------------------? ?

对于报文冲击导致CPU高的情形,可进一步通过cpu-defend统计查询功能确认具体的协议类型。
协议上送过多判断标准:该协议对应的Drop列有大量计数,且相对于Pass计数占比较高,例如上表 中的arp-request类型。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 4

display logbuffer
<Quidway>display logbuffer Logging buffer configuration and contents : enabled Allowed max buffer size : 1024 Actual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 395

Feb 28 2012 16:37:40 Quidway %%01SNMP/4/DECODE_ERR(l):Failed to login th rough SNMP, because of the decoded PDU error. (Ip=10.71.109.69, Times=4) … … Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(40%), SNPG(30%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) … …

?

CPU使用率高往往还伴有告警、日志出现,可以通过查看日志缓冲区的历史记录,搜索 CPU_USAGE_HIGH日志,以便确认CPU占用率TOP 3的任务。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

5

目录
? ?

诊断工具 报文冲击导致的CPU使用率高问题
? ?

定位思路 故障举例

?
? ?

第一步:检查CPU占用率TOP任务
第二步:检查上送过多的协议类型 第三步:按协议类型分别处理

?

CPU使用率高问题信息采集

定位思路

CPU使用 率检查

确认 TOP 任务

确认 报文 类型

协议 分类 处理

其它情 形信息 采集

? ?

最常见协议冲击CPU致使用率高主要表现在bcmRX、FTS、SOCK等任务上。

bcmRX是设备硬件中断触发的的收包任务,它会将收取到的报文立刻转交软件层面的FTS任务进行
分发处理。 对于属于三层协议处理的报文,往往还伴随有SOCK任务占用率高的情况出现。

?

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

7

故障举例
故障描述:交换机产生CPU_USAGE_HIGH告警:
Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(27%), VPS(15%), bcmRX(5%). (CpuUsage=99%, Threshold=80%)

备注: 如果网管需要主动监测CPU使用率,可通过OID:1.3.6.1.4.1.2011.5.25.31.1.1.1.1.5获取。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

8

第一步:检查CPU占用率及TOP任务
<Quidway>display cpu-usage [ slot x ] CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 85% Max: 99% CPU Usage Stat. Time : 2001-04-25 16:15:00 CPU utilization for five seconds: 90%: one minute: 85%: five minutes: 86% Max CPU Usage Stat. Time : 2001-04-24 17:17:07. TaskName BOX _TIL _EXC VIDL TICK CLKI DEV bcmRX CHAL FTS MOD
?

CPU

Runtime(CPU 0% 0% 0% 15% 0% 0% 0% 5% 0% 23% 0%

Tick High/Tick Low) Task Explanation 0/ dad772 BOX Output 0/ 0 Infinite loop event task 0/ 0 Exception Agent Task 8/b51c8f1b DOPRA IDLE 0/ 91e2d7f 0/ 0 CLKI 0/ 12202d9 DEV Device 0/ cb817af bcmRX 0/ 0 CHAL 0/ 5a876 FTS 0/ 0 MOD Module Management

通过故障现象中的告警信息,可以确认CPU占用率TOP任务中包含有bcmRX、FTS报文收取任务, 基本可以确认属于协议收报过多导致CPU占用率上升。 可以通过CPU使用率查询功能进一步核实TOP任务中是否包含有收包任务;可以通过slot指明查询的 槽位号。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 9

?

第二步:确认报文类型
<Quidway>display cpu-defend statistics all Statistics on slot 0: ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) ------------------------------------------------------------------------------arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 dhcpv6-reply 0 0 0 0 dhcpv6-request 0 0 0 0 icmp 0 0 0 0 icmpv6 0 0 0 0 igmp 2240 0 35 0 … …

?

通过cpu-defend统计查询功能,确认哪类协议存在冲击情形,可以通过各类协议的Drop列计数进 行确认。如果某类协议Drop计数非常大,且Drop列计数相对于Pass列计数占比较高(例如达到20%

以上),则认为属于此类协议存在冲击CPU情况。例如上表中的arp-request,后续按照第三步中的
ARP协议对应处理方式进行处理。
?

注意,查看统计时,需要关注协议冲击位于哪个槽位,即“Statistics on slot x”。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 10

第三步:按协议类型分别处理-1
?

ARP
通过display interface检查哪些接口存在Broadcast数量异常,并在此接口配置广播流量抑 制,限制单个接口广播速率(例如限制为50pps):
# broadcast-suppression pps 50. #

?

DHCP
请确认本机是否需要开启DHCP,如果不需要请在全局undo dhcp enable;
如果需要,建议在下行接口开启dhcp error-down功能(具体信息请参考用户手册): # dhcp snooping check dhcp-rate enable dhcp snooping check dhcp-rate trigger error-down # 并建议通过基于dhcp报文的流量统计功能,来发现哪个接口发送了过多的DHCP报文。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

11

第三步:按协议类型分别处理-2
?

TCP/ARP-MISS
此种情况一般是由于网络中存在针对不存在的某些直连网段IP地址进行扫描导致的. 当有数
据报文发送到这些不存在的IP地址时,会将数据上送CPU处理,以触发ARP学习过程,建议 此时在每个vlanif接口下调整ARP学习延迟时间:
# interface vlanif1000 arp-fake expire-time 30 #

?

TTL-EXPIRED
如果不需要本机在tracert中显示,建议丢弃此类报文:
# cpu-defend policy test deny packet-type ttl-expired # Cpu-defend-policy test global Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

12

第三步:按协议类型分别处理-3
?

Reserved-multicast
此类报文一般属路由协议报文,目的IP地址224.0.0.X,如果设备不需要此类报文(或者启用 OSPF路由但未起组播功能),可以直接丢弃处理(或者升级到最新版本):
# cpu-defend policy test deny packet-type reserved-multicast #

Cpu-defend-policy test global
Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

13

第三步:按协议类型分别处理-4
?

ND/ICMPV6/DHCPV6
如果本机不需要IPV6功能,建议直接丢弃此类报文:
# cpu-defend policy test deny packet-type nd deny packet-type icmpv6 deny packet-type dhcpv6-request deny packet-type dhcpv6-reply # Cpu-defend-policy test global Cpu-defend-policy test #

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

14

第三步:按协议类型分别处理-5
?

OSPF
请检查是否存在路由表项过大,或者OSPF PEER过多情形,并根据实际情况考虑对路由进行 优化,以降低路由表项数目或OSPF PEER数目。

?

SNMP
检查是否存在频繁的网管操作,例如获取接口流量,建议适当降低网管获取交换机信息的 频率。

?

如果不属于上述常见协议类型,或者其它情况导致的CPU高情形,建议立刻搜集设备当前诊断 信息、日志信息、本次定位过程的操作记录等,并返回华为服务处理。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

15

目录
? ? ?

诊断工具 报文冲击导致的CPU使用率高问题 CPU使用率高问题信息采集

信息搜集
?

搜集cfcard中的logfile目录下的日志信息,针对没有cfcard的 盒式设备,请通过如下命令搜集:
display logbuffer

display trapbuffer

?

搜集设备诊断信息,命令为:
display diagnostic-information

?

搜集cpu-defend统计信息(10分钟内多搜集几次)
display cpu-defend statistics all

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

17

信息搜集
?

搜集TOP任务的监控信息:
通过_hidecmd或diagnose进入诊断视图;

1.

2.

通过display cpu-usage检查cpu占用较高任务,例如EOAM较高:
[Quidway-hidecmd] display cpu-usage [ slot x ] -- 可指定槽号检查 CPU Usage Stat. Cycle: 10 (Second) CPU Usage : 38% Max: 99%

CPU Usage Stat. Time : 2013-01-06 03:08:57
CPU utilization for five seconds: 38%: one minute: 33%: five minutes: 35%. TaskName BOX _TIL _EXC VIDL TICK STND EOAM CPU Runtime(CPU Tick High/Tick Low) Task Explanation 0% 0% 0% 61% 0% 0% 24% 0/ 18f78e 0/ 0/ 0 0 BOX Output Infinite loop event task Exception Agent Task DOPRA IDLE STNDStandby task EOAMEthernet OAM 802.1ag Huawei Confidential 18

0/b7abe65c 0/ 143074e 0/ b3412 0/4994c174

HUAWEI TECHNOLOGIES CO., LTD.

信息搜集
3. 通过display task查找任务对应的taskid,例如EOAM的taskid为79:
[Quidway-hidecmd] display task [ slot x ] -- 可指定槽号 name BOX _TIL _EXC VIDL TICK STND FTPS DEV TCTL NAP EOAM TRAF SLAG Tid 0x6ec5230 0x6ebaf90 0x6eb0cf0 0x6ea6a50 0x6e9c7b0 0x6daa8b0 0x6dbc240 0x6e7ffd0 0x6c6a460 0x6c601c0 0x6c55f20 0x6c4bc80 0x6c419e0 VOS_Tid priority 1 2 3 4 5 6 7 8 77 78 79 80 81 8 250 135 1 205 80 100 140 100 100 100 100 100 Status sleep eventblock eventblock preemptready preemptready eventblock sleep eventblock eventblock eventblock eventblock eventblock eventblock CPU Total(Millsecs) 36830 0 0 79669745 476396 18097 230536 14818 45 45 29468818 25659 56 ==============================================================================

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

19

信息搜集
4. 根据taskid设置监控阀值。阀值的设置可参考相应任务的现有占用率,如上面的 EOAM模块CPU利用率为24%,那么我们设置监控比这个值低一点,例如设置 成20%,具体命令为: set task-monitor-record threshold [threshold] taskid [taskid]
[Quidway-hidecmd]set task-monitor-record threshold 20 taskid 79 [ slot x ] – 可指定槽号 Task Monitor has been set on slot 5, TaskId is 79, Threshold is 5

5. 查看任务监控记录,具体命令为:display task-monitor-record
[Quidway-hidecmd]display task-monitor-record [ slot x ] – 可指定槽号 =========== Task Cpu-usage Monitor Record (slot: 5) =========== Current Index: 0

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

20

信息搜集
6. 最后,必须要关闭任务监控,具体命令为:set task-monitor-record threshold 1 taskid 0。设置taskid为0,就表示关闭任务监控记录。
[Quidway-hidecmd]set task-monitor-record threshold 1 taskid 0 [ slot x] – 可指定槽号 Task Monitor has been closed on slot 5

7. 如果是接口板CPU占用率高,需要按照上述1~6步骤搜集相应接口板槽位的 任务监控信息(相应的命令行中指定slot即可)。

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

21

附录
?

本附件包含有各类交换机任务的详细描述

HUAWEI TECHNOLOGIES CO., LTD.

Huawei Confidential

22

Thank you
www.huawei.com
Copyright?2011 Huawei Technologies Co., Ltd. All Rights Reserved. The information in this document may contain predictive statements including, without limitation, statements regarding the future financial and operating results, future product portfolio, new technology, etc. There are a number of factors that could cause actual results and developments to differ materially from those expressed or implied in the predictive statements. Therefore, such information is provided for reference purpose only and constitutes neither an offer nor an acceptance. Huawei may change the information at any time without notice.


相关文章:
2015秋计算机基础理论题+答案2
A. 频道多,利用率高 B. 图像清晰度好 C. 可...错误 27(单选题): 当前使用的个人计算机中, 在CPU...(判断题): 存储转发技术使分组交换机能对同时到达...
CPU占用率高的定位思路_图文
CPU占用率高定位思路_计算机硬件及网络_IT/计算机...或者产生告警 basetrap_1.3.6.1.4.1.2011.5....专题推荐 2014下半年教师资格...专题 2014教师资格...
2015秋计算机基础理论题+答案1
Adobe公司的 Acrobat Reader 5(填空题<1空>): 在用原码表示带符号整数"0"时...存储器 D. CPU 23(判断题): 将大楼内的计算机使用双绞线、交换机连接在一起...
单选题
用一台交换机作为中心节点把几台计算机连接成网,则...“编辑/定位” 二、 多选题(每题 1 分,共 5 ...信息,必须首先调入___,然后才能供CPU使用。 A. 控制...
H3C交换机排除故障
cpu 最近 5S、1m、5m 占用率 查看 cpu 使用记录...发现问题没有解决 2.Dis cpu/Dismem 查看交换机的...专题推荐 2014教师资格材料分析辅... 2014小学教师...
交换机排错
故障定位流程: 1. 2. 3. 4. 5. 检查配置——如果是配置问题,修改配置后...接入级交换机排错常用命... 3页 1下载券 路由器交换机高CPU利用率... 33...
WS6603常用定位手段与案例分析
不规律地发生主备倒换,AC 的 CPU 占用率持续较高...5 Capwap control priority(AP to AC) : 5 ---...【定位结果】 AC 连接交换机的端口未从 VLAN 1 ...
08机试题(2012-5-15)
7、为了有效定位智能呼叫中的放音故障,通常需要使用...8、在可预见的话务高峰时,观察CDP的CPU占用率,如果...() 6、固网交换机与SHLR(SDC)的连接信令可以有...
【交换机在江湖之维护宝典】如何轻松定位STP故障
交换机在江湖之维护宝典】如何轻松定位STP故障_IT/计算机_专业资料。其实STP...如果使能TC保护、修改STP收敛方式后,PPI任务的CPU利用率仍然较高,小伙 特性攻略...
如何定位死循环高CPU使用率
如何定位死循环高CPU使用率_计算机软件及应用_IT/计算机_专业资料。如何定位死...() 5 Thread 0xac5e6b70 (LWP 2916) 0x006e0422 in __kernel_vsyscall () ...
更多相关标签: