哈里斯交换机日常维护中发现的告警及处理方法
1、 DTU载波组告警
## MAJOR  STBY CC-1  DTUCTL   ALARM 018 count = 00001  21-DEC-2008 18:35:17 SUN    DTU entered Carrier Group Alarm                      FROM TIS_______    1F 041F 03-02-32 041F 0001 0000 0000 0000 0000 0000    DTU 进入  载波组告警--单条详细告警
## MAJOR  STBY CC-1  GROUP    ALARM 001 count = 00001  21-DEC-2008 18:35:17 SUN    One or more DTUs in Carrier Group Alarm            -ON   PORT 03-02-32    组告警 –ON 点灯
上面的告警说明03-02这块2M板收不到2M信号了,2M板子亮红灯或黄灯。 只有组告警才可以点灯。
## MAJOR  ACTV CC-2  DTUCTL   ALARM 019 count = 00001  21-DEC-2008 18:37:03 SUN    DTU exited Carrier Group Alarm                       FROM TIS_______    1F 041F 03-02-32 041F 0000 0000 0000 0000 0000 0000
DTU 退出  载波组告警--单条详细告警
## MAJOR  ACTV CC-2  GROUP    ALARM 001 count = 00001  21-DEC-2008 18:37:03 SUN    One or more DTUs in Carrier Group Alarm            -OFF  PORT 03-02-32    组告警 –OFF 关灯
上面的告警说明03-02这块2M板又收到信号了,2M板子只亮绿灯
ALM。。。? DISA  GROUP   1 去能组1告警 ALM。。。? STA   /DISA 显示所有已去能的告警
ALM。。。? DISP  /AFT  4-22-2009  11:40  显示详细告警.
2、2M瞬断的故障处理方法
当发生2M瞬断的现象后,一般要到维护终端STS...? DISP   /AFT  4-28-2009   DTU   01-06回车.
01-06就是2M瞬断的那块板的槽位,要按上面的操作一下,就会出现误码及滑码的大小,如果其中的数字为0表示没有误码。
STS ...? disp /aft 5-11-2009 10:00 dtu 3-16
RECORD NUMBER 1
-------------------------------------------------------------------------------- | Equipment: DTU = 03-16        11-MAY-2009  10:00:01      Col. Rate: 60  MIN  | |------------------------------------------------------------------------------| | DTU Type: 2MB PRI                     |                    Circuit: 03-16-32 | |---------------------------------------|--------------------------------------| | Line Error Count          18          | Line Error Overflows        0        | | CRC Count (T1, ESF only)  0           | CRC Overflows               2        | | Xmt-Slip Count (T1 only)  0           | Xmt-Slip Overflows          0        | | Rcv-Slip Count            4           | Rcv-Slip Overflows          0        | | Red Pre-alarm Count       1           | Red Pre-alarm Overflows     0        | | Remote Pre-alarm Count    0           | Remote Pre-alarm Overflows  0        |
| OOS Pre-alarm Count       1           | OOS Pre-alarm Overflows     0        |
| Carrier Group Alarms      0           |                                      | --------------------------------------------------------------------------------
上面表格表示有10点左右的1小时里,3-16数字中继有轻微滑码,但没有影响。如果数字为上百上千了,就表示传输(包括同轴电缆)有误码及滑码的产生。
误码及滑码的产生,可能的原因如下:
1、可能下端交换机没有跟随上端局的时钟同步信号。
2、可能(同轴+光纤传输+同轴)产生误码。
建议先断开两端交换机BNC头,在交换机后面用三通T头把同轴线自环,在别一端的交换机后面拨下同轴 电缆BNC头,连上误码仪,进行测试。只有这样测试就包括了三段(同轴+光纤传输+同轴)。 这才能说明问题。不能只测试传输配线架到另一端传输配线架有没有误码。
3、上电源下电源告警
*** 告警类别 # 250   UTS_HW    ***                               Active  Standby 133 MXU# PAM# SLINK# SHELF# Upper bay power fail   MAJOR|DIS      4       4 134 MXU# PAM# SLINK# SHELF# Lower bay power fail   MAJOR|DIS      4       4实例:
## MAJOR  STBY CC-1  UTS_HW   ALARM 134 count = 00001  24-MAY-2008 15:21:04 SA    MXU# PAM# SLINK# SHELF# Lower bay power fail   FROM TIS_______    0002 0001 000A 0001                                                   1机架   下        电源  失败## MAJOR  STBY CC-1  UTS_HW   ALARM 134 count = 00002  24-MAY-2008 15:21:04 SA    MXU# PAM# SLINK# SHELF# Lower bay power fail   FROM TIS_______0002 0002 000A 0003
## MAJOR  STBY CC-1  UTS_HW   ALARM 133 count = 00001  24-MAY-2008 15:21:04 SA    MXU# PAM# SLINK# SHELF# Upper bay power fail   FROM TIS_______    0002 0001 000A 00022机架   上        电源  失败
## MAJOR  STBY CC-1  UTS_HW   ALARM 133 count = 00002  24-MAY-2008 15:21:04 SA    MXU# PAM# SLINK# SHELF# Upper bay power fail   FROM TIS_______    0002 0002 000A 0004产生了3机架上电源告警的处理方法: 3机架上电源为电源板,3机架下电源与4机架上电源相连在一起为2块冗余电源板,负责3、4机架电源冗余。4机架下电源为电源板。
如果出现3机架上电源告警,如下:
## MAJOR  STBY CC-1  UTS_HW   ALARM 133 count = 00002  24-MAY-2008 15:21:04 SA    MXU# PAM# SLINK# SHELF# Upper bay power fail   FROM TIS_______    0002 0002 000A 0003这就表示3机架上电源可能损坏,处理方法:
1、 可以直接拨出3机架上电源板,换上一块新的备件电源板。然后刷新告警,看故障是否解决。
2、 或者把3架的下电源冗余电源板拔出,这样3电源供3架,4电源供4架,各自。然后再量3架背板
上的电源测试点+5V、-5V、+12V、-12V,看其中有没有坏的。如果-5V没有电压或-3V左右,表示3架电源板坏,换一块备件电源板,再量,正常后,再恢复冗余电源板。然后刷新告警,看故障是否解决。
4、如何刷新告警
先在网管上把这台交换机的告警全部清除,然后进入维护终端,在EXT或ROU里改个注释,SAVE一下。则等2分钟备用机架刷新完后,网管上所有详细告警重新刷新一遍。这样来看故障是否解决。
5、铃流告警板故障引发AC交流告警乱出的问题
## MAJOR  STBY CC-2  UTS_HW   ALARM 023 count = 00001  10-NOV-2008  3:42:51 MON    PAM# SLINK# SHELF# Pedestal AC power failed      FROM TIS_______0000 000A 0002
PAM 0000,SHELF 0002,表示第0个PAM(TSA上内置),第2架上的铃流板故障,需要更换。
如果上面这个告警总是乱出,是一种铃流告警板故障引发的,它是一种误告警,因为交换机并没有接交流电源,更换好的铃流告警板就可以解决。
下面为实例显示过程: ALM ...? sta
*** 告警类别 # 215   HARDWARE  ***                               Active  Standby   2 One or more hw failures reported by alarm boards   MAJOR|ON    N/A        1
在ALM下面打STA出现HARDWARE 2 硬件2号告警,表示交换机有硬件故障。但是什么硬件故障,还不知道。然后输入DISP /AFT 11-9-2008当天或提前2天查更详细的内容,到底是哪个硬件损坏引发的硬件2号告警。一查是AC power failed交流电源失败,交换机接的是直流-48V,没接交流,所以应该是告警系统损坏,也就是铃流告警板损坏,再看SHELF0002,表示2架的坏了。更换后,刷新告警,看故障是否解决,或观察几天看还有没有同样的故障。
ALM ...? disp /aft 11-9-2008
--- 激活边告警历史(机架
## MAJOR  ACTV CC-1  UTS_HW   ALARM 023 count = 00001  10-NOV-2008  3:42:52 MON    PAM# SLINK# SHELF# Pedestal AC power failed      FROM TIS_______0000 000A 0002
## MAJOR  ACTV CC-1  HARDWARE ALARM 002 count = 00001  10-NOV-2008  3:42:52 MON
CC-1)
--- 最早的 :  20-MAY-2008 12:01:21 TUE   最晚的: 10-NOV-2008  3:43:03 MON
One or more hw failures reported by alarm boards   -ON
## MAJOR  STBY CC-2  UTS_HW   ALARM 022 count = 00001  10-NOV-2008  3:42:55 MON    PAM# SLINK# SHELF# Pedestal over heated          FROM TIS_______    0000 000A 00026、什么样的告警可以DISABLE去能
看下面这三条,它们的COUNT=184\\19995\\1709
也就是这种告警已经出现1万多次了,咱们告警记录才8000条,全被这些没用的 告警占满了,而真正想看的告警却看不到。 对于这种上万条的告警,按如下方法去能: ALM...? DISA UTS_HW 2 ALM...? DISA DTUTIL 17 ALM...? DISA SPT 46 ALM...? DISA RAPAGT 50 ALM...? DISA RAPAGT 51
ALM...? DISA RAPAGT 52
早期绿皮机柜IXP的风扇由每层接线改为每个机柜接线,而产生的告警,无影响。
## MAJOR  ACTV CC-2  UTS_HW   ALARM 002 count = 00184  14-APR-2008  7:05:51 MON    PAM# SLINK# SHELF# Fan missing or fuse fail      FROM TIS_______    0001 000A 00042M板没有接外线,产生下面DIAG
DIAG   ACTV CC-2  DTUTIL   ALARM 017 count = 19995  14-APR-2008  2:19:46 MON    DTU reports receive slip counter overflow            FROM TIS_______    22 043F 03-04-32 0010 043F 0420 043E 0097 0009 B850
DIAG   STBY CC-1  SPT      ALARM 046 count = 01709  14-APR-2008  2:19:46 MON    User device requests cleared due to audit failure    FROM TIS_______    04E8 0000 04E8 0000
数据库加了2M板,但硬件2M板没有插上,出现如下:
## MINOR  ACTV CC-1  DTUCTL   ALARM 007 count = 65374  12-APR-2008  8:31:35 SAT    DTU failed to initialize                             FROM TIS_______    1F 037F 02-08-32 0003 037F 0360 037E 0097 0009 9180
下面这三条INFO告警一定要去能,它们是调度手柄每一次摘挂机就出三条告警:
INFO   ACTV CC-2  RAPAGT   ALARM 050 count = 00375  21-MAR-2008 10:33:29 FRI
Recorded port requested VCR recording                FROM RAP_______
00 03B1 02-12-02 0000 0000 0000 0000 03A1 0000
INFO   ACTV CC-2  RAPAGT   ALARM 051 count = 00375  21-MAR-2008 10:33:29 FRI    VCR recording initiated on recorded port             FROM RAP_______    00 03A1 02-11-02 0000 0000 0000 0000 03B1 0000
INFO   ACTV CC-2  RAPAGT   ALARM 052 count = 00375  21-MAR-2008 10:33:36 FRI    VCR recording terminated on recorded port            FROM RAP_______    00 03A1 02-11-02 0000 0000 0000 0000 03B1 0000 还有好多好多,对于上万条的就可以去能.