Einführung
Dieses Dokument beschreibt ein Problem, das bei Nexus 5010/5020-Switches durch ein Hardwareproblem in der Altos ASIC auftritt (Fehlermeldung %NOHMS-2-NOHMS_DIAG_ERROR: Modul 1: Laufzeitdiagnose erkannte Hauptereignis: Port Failure) und bietet auch eine Lösung für das Problem.
Voraussetzungen
Anforderungen
Cisco empfiehlt, über Kenntnisse der Nexus CLI zu verfügen.
Verwendete Komponenten
Die Informationen in diesem Dokument basieren nur auf Cisco Nexus 5010/5020-Switches. Cisco Nexus 5548/5596-Switches sind davon nicht betroffen.
Die Informationen in diesem Dokument wurden von den Geräten in einer bestimmten Laborumgebung erstellt. Alle in diesem Dokument verwendeten Geräte haben mit einer leeren (Standard-)Konfiguration begonnen. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die potenziellen Auswirkungen eines Befehls verstehen.
Problem
Mehrere Schnittstellen auf Karte 2 sind ausgefallen, und Sie sehen diese Warnung:
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event
Die Warnung weist auf einen Kartenfehler hin, aber einige Ports sind aktiv. Obwohl der Nexus 5020-Switch online ist, ist das Fibre Channel (FC)-Modul in Steckplatz 2 offline. Geben Sie den Befehl show module ein, um den Status der Module anzuzeigen:
Mod Ports Module-Type Model Status
--- ----- -------------------------------- ---------------------- ------------
1 40 40x10GE/Supervisor N5K-C5020P-BF-SUP active *
2 8 8x1/2/4G FC Module N5K-M1008 offline <<<<<<
Mod Sw Hw World-Wide-Name(s) (WWN)
--- -------------- ------ --------------------------------------------------
1 4.2(1)N2(1) 1.3 --
2 4.2(1)N2(1) 1.0 77:9f:b7:62:2f:6c:69:62 to 00:00:00:b8:27:0a:08:2c
Geben Sie den Befehl show environment ein, um die Daten der Modulumgebung anzuzeigen.
Mod Model Power Power Power Power Status
Requested Requested Allocated Allocated
(Watts) (Amp) (Watts) (Amp)
--- ---------------------- ------- ---------- --------- ---------- ----------
1 N5K-C5020P-BF-SUP 625.20 52.10 625.20 52.10 powered-up
2 N5K-M1008 9.96 0.83 9.96 0.83 fail/shutdown
Geben Sie den Befehl show logging nvram ein, um diese Ausgabe anzuzeigen:
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/1
N5020 %$ VDC-1 %$ last message repeated 2 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/2
N5020 %$ VDC-1 %$ last message repeated 7 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/5
N5020 %$ VDC-1 %$ last message repeated 3 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/13
Wie Sie aus den Protokollen sehen können, ist die Laufzeitdiagnose bei mehreren Ports fehlgeschlagen. Außerdem melden zwei Ports jedes Gatos-ASIC einen "Hardwarefehler", da die Fabric ausgefallen ist. Geben Sie den Befehl show interface brief ein, um diese Ausgabe anzuzeigen:
--------------------------------------------------------------------------------
Ethernet VLAN Type Mode Status Reason Speed Port
Interface Ch #
--------------------------------------------------------------------------------
Eth1/1 1 eth fabric down Hardware failure 10G(D) 138
Eth1/2 1 eth fabric down Hardware failure 10G(D) 138
Eth1/3 1 eth fabric up none 10G(D) 138
Eth1/4 1 eth fabric up none 10G(D) 138
Eth1/5 1 eth fabric down Hardware failure 10G(D) 140
Eth1/6 1 eth fabric down Hardware failure 10G(D) 140
Eth1/7 1 eth fabric up none 10G(D) 140
Eth1/8 1 eth fabric up none 10G(D) 140
Das Gatos ASIC meldet Fehler für einige der Ports und deaktiviert sie. Geben Sie den Befehl show hardware internal gatos event-history error ein, um diese Ausgabe anzuzeigen:
1) Event:E_DEBUG, length:81, at 775734 usecs after Fri May 24 15:28:10 2013
[101] xcvr_set_port_to_hw_failure(): Sending nohms failure notif for port xgb1/13
2) Event:E_DEBUG, length:44, at 775726 usecs after Fri May 24 15:28:10 2013[100] CODE-PATH:
xcvr_set_port_to_hw_failure
935) Event:E_DEBUG, length:34, at 434695 usecs after Fri May 24 15:28:06 2013[100] CODE-PATH:
xcvr_port_disable
936) Event:E_DEBUG, length:38, at 434653 usecs after Fri May 24 15:28:06 2013[100] CODE-PATH:
xcvr_set_port_disable
937) Event:E_DEBUG, length:81, at 408233 usecs after Fri May 24 15:28:06 2013
[101] xcvr_set_port_to_hw_failure(): Sending nohms failure notif for port xgb1/30
938) Event:E_DEBUG, length:44, at 408224 usecs after Fri May 24 15:28:06 2013 [100] CODE-PATH:
xcvr_set_port_to_hw_failure
Aus dem Altos ASIC gibt es zahlreiche "Fehler-Interrupt"-Meldungen aufgrund von Synchronisierungsproblemen, die zu Zurücksetzungen von Fabric Interconnects (FI) führen. Geben Sie den Befehl show hardware internal altos event-history errors ein, um diese Ausgabe anzuzeigen:
1) Event:E_DEBUG, length:131, at 959201 usecs after Fri May 24 14:19:20 2013
[100] Threshold reached for error interrupt - ALT_FIC3_INT_3_XGXS_rx2_loss_of_sync, flags:
0xa8, fabric port: 15, Action: fi-reset
2) Event:E_DEBUG, length:122, at 372727 usecs after Fri May 24 14:15:05 2013
[100] Threshold reached for interrupt - ALT_FIC6_INT_0_XGXS_EXT_serdes_rx2_sync, masking it
(threshold=3 period=10 msecs)
453) Event:E_DEBUG, length:122, at 658189 usecs after Fri May 24 03:38:48 2013
[100] Threshold reached for interrupt - ALT_FIC6_INT_1_XGXS_EXT_serdes_rx0_sync, masking it
(threshold=3 period=10 msecs)
454) Event:E_DEBUG, length:129, at 658137 usecs after Fri May 24 03:38:48 2013
[100] Threshold reached for error interrupt - ALT_FIC6_INT_1_XGXS_rx2_code_eerror, flags:
0xa8, fabric port: 25, Action: fi-reset
Lösung
Das Problem ist auf ein Hardwareproblem im Altos ASIC zurückzuführen. Wenden Sie sich an das Cisco Technical Assistance Center (TAC), um den Nexus Switch der Serie 5000 zu ersetzen.