Este documento descreve como identificar uma barra cruzada (Xbar) com falha quando um módulo está inoperante devido a uma falha de sincronização Xbar em um switch Cisco Nexus 7000 Series. O procedimento de solução de problemas para esse problema envolve a coleta de dados, a análise de dados e um processo de eliminação para isolar o componente do problema.
A Cisco recomenda que você tenha conhecimento da CLI do Cisco Nexus Operating System (NX-OS).
As informações neste documento são baseadas no switch Cisco Nexus 7000 Series que executa o NX-OS versão 6.1(2), mas também podem funcionar com qualquer versão do NX-OS.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
O módulo N7K-F248XP-25E está inoperante devido a uma falha de sincronização Xbar na inicialização do módulo. Quando o módulo foi inserido no slot 1 no chassi, ele desligou. Isso pode ocorrer devido a um destes motivos:
Em caso de suspeita de falha de hardware no módulo N7K-F248XP-25E, você deve visualizar os registros para determinar se o motivo da falha é devido a um módulo defeituoso ou à falha de sincronização do Xbar.
Para isolar ainda mais o problema neste exemplo, o módulo foi inserido em um slot diferente e ficou ativo conforme esperado. Isso indica que o módulo não está com defeito, portanto, o problema está na matriz Xbar ou no chassi.
Este registro de exceções apareceu quando o módulo foi desligado no slot 1:
show module internal exceptionlog module 1
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:55:19 2014
(Ticks: 532B0F67 jiffies)
exception information --- exception instance 2 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:53:12 2014
(Ticks: 532B0EE8 jiffies)
De acordo com esses registros de exceção, o problema está claramente no Xbar ou no chassi do Slot 1.
Para isolar ainda mais o problema, você deve remover cada Xbar individualmente enquanto monitora o módulo no slot 1 até que ele possa ligar sem problemas. Isso confirma que há um problema com um módulo de estrutura Xbar específico, caso em que você prosseguiria com uma RMA (Return Material Authorization, Autorização de devolução de material) para o hardware defeituoso.
No entanto, este é um procedimento longo e requer um longo período de manutenção. Para encontrar o slot exato da estrutura Xbar que causa o problema de sincronização com o módulo, você pode prosseguir como mostrado aqui:
show system internal xbar event-history errors
-----------------------------------------------------
7) Event:E_DEBUG, length:67, at 384460 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_perform_error_action(1413): MTS_OPC_LC_INSERTED error 0x1
8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
[102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
_err 0x40240012 err_type 0x4
9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(221): Sync fail for module 1 link 8
10) Event:E_DEBUG, length:66, at 384341 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(210): Error for Slot 0 error_code 0x877660c
11) Event:E_DEBUG, length:62, at 384298 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_sync_seq_failed(1169): Sync fail for module 1 link 8
Nesses registros, você pode ver a mensagem Sync fail for module 1 link 8. Em seguida, você deve identificar o slot de estrutura ao qual o Link 8 está associado. Para determinar isso, você deve verificar a saída do comando show system internal xbar sw:
show system internal xbar sw
Module in slot 1 (present = 0)
Dedicated X-link 255
rid 0x2000000 type 0 state 0 sub_type 0 node_id 0x0
sw_card_id 0x0 lc_node_addr 0x0 feature_bits 0x0
timer: hdl 0x86fcc20 rid 0x2000000 ev_id 0xffff timer_id 0x41a tim_type 0x2
Link_Info:: Num Links 10 max Edp 10
Link_num 0
is_synced 0 is_edp 0 num_sync_try 0
Link_num 1
is_synced 0 is_edp 0 num_sync_try 0
Link_num 2
is_synced 0 is_edp 0 num_sync_try 0
Link_num 3
is_synced 0 is_edp 0 num_sync_try 0
Link_num 4
is_synced 0 is_edp 0 num_sync_try 0
Link_num 5
is_synced 0 is_edp 0 num_sync_try 0
Link_num 6
is_synced 0 is_edp 0 num_sync_try 0
Link_num 7
is_synced 0 is_edp 0 num_sync_try 0
Link_num 8
is_synced 0 is_edp 0 num_sync_try 3
Link_num 9
is_synced 0 is_edp 0 num_sync_try 0
Link_Map:: Num Links 10 max Edp 10
Link_num 0
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 1
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 2
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 3
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 4
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 5
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 6
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 7
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 8
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
Link_num 9
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
Na saída, você pode ver que Link_num 8 (Link 8) está conectado a fab [14.0] (Fabric Slot 14), que é Xbar 5.
Para identificar fab [14.0] (a estrutura no slot 5), digite o comando show module:
show module
Xbar Ports Module-Type Model Status
--- ----- -------------------------------- ----------------- ------
4 0 Fabric Module 2 N7K-C7010-FAB-2 ok
Xbar MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
1 NA JAF1739AQTP
2 NA JAF1739AJAA
3 NA JAF1739AQDG
4 NA JAF1739ATHG
5 NA JAF1739AQEF
Na saída do comando show module, você pode ver o módulo de estrutura Xbar no slot 5.
Agora você deve ter a identificação correta da estrutura que causou a falha de sincronização no módulo no slot 1. Neste exemplo, a estrutura foi removida do slot 5 e o módulo que estava no slot 1 foi inicializado sem nenhum erro. O Xbar com defeito agora pode ser substituído.
Revisão | Data de publicação | Comentários |
---|---|---|
1.0 |
17-Jun-2015 |
Versão inicial |