概要
このドキュメントでは、Cisco NX-OS システム ソフトウェアを実行する Cisco Nexus 7000 シリーズ スイッチに共通するハードウェアの問題とアーキテクチャの問題について、簡単な説明と解決策を示します。
注:このドキュメントに記されている syslog メッセージやエラー メッセージの形式は、若干、異なる場合があります。この違いは、スイッチのスーパーバイザ エンジンで稼働しているソフトウェア リリースの違いによって生じるものです。
問題:SpineControlBus の障害
Nexus 7000 スーパーバイザのスパイン制御テストが失敗します。
Nexus7000# show module internal exceptionlog module 5
...
System Errorcode : 0x418b0022 Spine control test failed
Error Type : Warning
PhyPortLayer : 0x0
Port(s) Affected : none
Error Description : Module 10 Spine Control Bus test Failed
...
11) SpineControlBus E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 1597800
Last test execution time ----> Mon May 27 21:57:17 2013
First test failure time -----> Sun Nov 20 00:30:55 2011
Last test failure time ------> Mon May 27 21:57:17 2013
Last test pass time ---------> Mon May 27 21:56:47 2013
Total failure count ---------> 33
Consecutive failure count ---> 1
Last failure reason ---------> Spine control test failed
解決方法
この問題は、Cisco Bug ID CSCuc72466 に関連しています。 『Nexus 7000 FAQ: What is the recommended action to take when the SpineControlBus test fails?』を参照してください。
問題:NVRAM で検出される不良ブロック
NVRAM エラーは診断イベントで表示されます。
Nexus7000#show diagnostic events
1) Event:E_DEBUG, length:97, at 9664 usecs after Wed Dec 5 01:03:42 2012
[103] Event_ERROR: TestName->NVRAM TestingType->health monitoring module->5
Result->fail Reason->
#show diagnostic result module 5 test NVRAM detail
4) NVRAM-------------------------> E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 52596
Last test execution time ----> Wed Dec 5 01:03:41 2012
First test failure time -----> Tue Dec 4 23:28:45 2012
Last test failure time ------> Wed Dec 5 01:03:42 2012
Last test pass time ---------> Tue Dec 4 23:23:41 2012
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> Bad blocks found on nvram
これは、ハードウェアの問題、スーパバイザエンジンの障害、または一時的な問題のいずれかです。
解決方法
- NVRAM テストを再実行して、これが誤報かどうかを確認します。診断テストを無効にしてから再度有効にするには、次のコマンドを入力します(問題モジュール 5 の場合の例)。
- no diagnostic monitor module 5 test NVRAM
- diagnostic monitor module 5 test NVRAM
テストコマンドの結果を表示するには、show diagnostic result module 5 test NVRAM detail コマンドを入力します。
- NVRAM テストに再び失敗する場合は、モジュール 5 を再装着します。 show diagnostic result module 5 コマンドと show module コマンドの結果を確認します。
- モジュールに再度障害が発生する場合は、問題のあるスロットのスーパーバイザに関して返品許可(RMA)申請を行ってください。
問題:モジュール 9 の Compact Flash の障害
スーパーバイザ 2/スーパーバイザ 2E で、次のいずれかまたはすべてが表示されます。
- エラー メッセージ:
DEVICE_TEST-2-COMPACT_FLASH_FAIL: Module 5 has failed test CompactFlash
20 times on device Compact Flash due to error The compact flash power test failed.
- 設定を保存できない。
- 診断テストの失敗:
Test results: (. = Pass, F = Fail, I = Incomplete,
U = Untested, A = Abort, E = Error disabled)
7) CompactFlash E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 23302
Last test execution time ----> Sun Apr 13 10:07:30 2014
First test failure time -----> Sun Apr 13 00:37:41 2014
Last test failure time ------> Sun Apr 13 10:07:40 2014
Last test pass time ---------> Sun Apr 13 00:07:41 2014
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> The compact flash power test
failed
Next Execution time ---------> Sun Apr 13 10:37:30 2014
根本原因
第 2 世代の Nexus 7000 スーパーバイザには、冗長性のために 2 つの同一の eUSB フラッシュが搭載されています。フラッシュは、ブートフラッシュ、設定、およびその他の関連情報のリポジトリを提供します。これらの 2 つのフラッシュは、内部ミラーリングを実装する冗長ディスクアレイ(RAID)1 アレイとして再設定されます。冗長性により、スーパーバイザは、いずれかのフラッシュが失われても機能しますが、両方が失われると機能しません。
数ヵ月または数年にわたって使用するうちに、これらのフラッシュのいずれかまたは両方が RAID ソフトウェアによって不良としてマークされる事例がいくつか確認されています。ボードをリセット/リブートすると、次の起動時に、これらの問題視されたフラッシュが正常であることが再検出されます。
解決方法
これがハードウェアの問題であるかどうかを確認するには、次の手順を実行します。
- 可能であれば、問題のあるスーパーバイザをリロードします。
- リロード後も問題が発生する場合は、ハードウェアの交換が必要です。
- 問題がリロードによって修正される場合、根本原因は Cisco Bug ID CSCus22805 に関連しています。
問題:N7K-M132XP-12 ラインカードの PortLoopback テストの失敗
ラインカードが、ポート PortLoopback テストの失敗による診断の失敗を 10 回連続で報告します。
DIAG_PORT_LB-2-PORTLOOPBACK_TEST_FAIL Module:16 Test:PortLoopback
failed 10 consecutive times. Faulty module:Module 16 affected ports:5,7
Error:Loopback test failed. Packets lost on the LC at the Queueing engine ASIC
MODULE-4-MOD_WARNING Module 16 (serial: XXXX) reported warning on
ports 16/5-16/5 (Ethernet) due to Loopback test failed.
Packets lost on the LC at the Queueing engine ASIC in device 78
(device error 0x41830059)
根本原因
これは警告メッセージであり、ほとんどの場合、ポートのハードウェアの問題を示しています。
解決方法
これはソフトウェアの問題である可能性もあるため、最初に Cisco Bug ID CSCtn81109 と Cisco Bug ID CSCti95293 を確認します。
カードを再初期化し、ブートアップハードウェア健全性テストを再実行するために、最初にモジュールを再装着します。同じカードの診断テストに引き続き失敗する場合は、カードを交換します。
都合の良い時間にカードをリロードし、次のコマンドの出力を収集します。
- show logging log
- show module
- show diagn result module all detail
または、この特定のテストのみを再実行することができます(カードをリロードする必要はありません)。次に、モジュール 16 の例を示します。
show diagnostic result module 16
diagnostic clear result module all
(config)# no diagnostic monitor module 16 test 5
(config)# diagnostic monitor module 16 test 5
diagnostic start module 16 test 5
show diagnostic result module 16 test 5
問題:N7K-M132XP-12 ラインカードの MODULE-4-MOD_WARNING
次のエラーが表示され、モジュールのリロードが発生する場合があります。
2013 Mar 27 00:40:23 DC3-7000-PRODD2-A23 MODULE-4-MOD_WARNING
Module 9 (serial: XXX) reported warning on ports 9/1-9/3 (Unknown)
due to BE2 Arbiter experienced an error in device 65 (device error 0xc410f613)
根本原因
これは、ドーターカードにおけるパリティエラーまたはハードウェアの問題が原因のハードウェア障害です。
解決方法
- 次のコマンドの出力を調べます。
- show version
- show system reset-reason module X
- show logging onboard internal reset-reason
- show module internal event-history module X
- show log
- Cisco NS-OX のバージョンが 4.2 より前の場合は、新しいバージョンにアップグレードして、これらのソフトウェア不具合修正を確実に組み込みます(パリティエラーの可能性を最小限に抑えます)。
- Cisco Bug ID CSCso72230:L1 D キャッシュが有効になっている 8541 CPU が、L1 D キャッシュパリティエラーでクラッシュする
- Cisco Bug ID CSCsr90831:L1 D キャッシュが有効になっている 8541 CPU が、L1 D キャッシュ プッシュ パリティ エラーでクラッシュする
- エラーが繰り返し発生する場合は、カードとモニタを再装着します。
- 依然としてエラーが繰り返し発生する場合は、問題のあるモジュールを交換します。
その他の既知のソフトウェア不具合
Cisco Bug ID CSCtb98876
問題:N7K-M224XP-23L chico serdes sync loss エラー
次のエラーがモジュールに表示されます。
%MODULE-4-MOD_WARNING: Module # (Serial number: XXXX) reported warning
Ethernet#/# due to chico serdes sync loss in device DEV_SKYTRAIN
(device error 0xc9003600)
根本原因
これらのエラーは、モジュール # と Xbar/ASIC の間に同期損失の問題があることを示しています。ほとんどの場合、原因はモジュールのハードウェア障害です。
Cisco NS-OX のバージョンが 6.1(4) より前で、メッセージが連続して表示されない場合は、Cisco Bug ID CSCud91672 の影響を受けている可能性があります。 この不具合の原因は、NX-OS serdes の設定が SKT <-->SAC 間の 2 つのチャネルの診断設定と異なることです。
解決方法
次のコマンドの出力を収集します。
- show version
- show module
- show run
- show module internal event-history module X
- show module internal activity module X
- show module internal exception-log module X
- show module internal event-history errors
- show logging last 200
- show logging nvram
不具合の原因を特定するために、スイッチを NS-OX バージョン 6.1(4) 以降にアップグレードします。
障害があるのが xbar またはシャーシスロットではなくカードであるのかどうかを確認するために、次のテストを実行します。
- 問題のあるモジュールを、シャーシの別の空きスロットに移動します。
- 予備のモジュールがある場合は、それを問題のあるスロットに挿入します。
- ステップ 1 の後にエラーが表示されない場合は、問題のあるスロットにモジュールを戻し、確認します。
問題:N7K-F248XP-25 PrimaryBootROM および SecondaryBootROM テストの失敗
モジュール N7K-F248XP-25 が、PrimaryBootROM テストと SecondaryBootROM テストの両方に失敗します。
show module internal exceptionlog module 1 | i Error|xception
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Error Description : Secondary BootROM test failed
exception information --- exception instance 2 ----
Error Description : Primary BootROM test failed
根本原因
これは、通常、BIOS ファイルの破損またはラインカードのハードウェア障害が原因で発生します。
解決方法
Cisco Bug ID CSCuf82089 では、より正確な診断のために、このような障害に関するより詳細な情報を表示するコードが追加されています。これにより、たとえば、現在の Null 値ではなく、障害が発生したコンポーネントが表示されます。
この問題は、モジュールの BIOS の破損が原因で発生する場合もあります。これを解決するには、install module X bios forced コマンドを入力します。このコマンドはサービスに影響を与える可能性があることに注意してください。メンテナンス期間中にのみ実行することをお勧めします。
この問題を解決するには、次の手順を実行します。
- 可能な回避策として、メンテナンス期間をスケジュールし、install module X bios forced コマンドを入力します。潜在的なサービスへの影響を回避するために、メンテナンス期間にのみこのコマンドを入力してください。
- ステップ 1 で問題が解決しない場合、またはこのアクションのためにメンテナンス期間を用意できない場合は、モジュールを交換します。次の出力例は、失敗した試行を示しています。
Nexus7000# install module 1 bios forced
Warning: Installing Bios forcefully...!
Warning: Please do not remove or power off the module at this time
Upgrading primary bios
Started bios programming .... please wait
[# 0% ]
BIOS install failed for module 1, Error=0x40710027(BIOS flash-type verify failed)
BIOS is OK ...
Please try the command again...
問題:温度センサーの障害
次のエラーがプラットフォームで表示されます。
%PLATFORM-4-MOD_TEMPFAIL: Module-2 temperature sensor 7 failed
根本原因
これは、ASIC 内部のタイミングにより特定の条件下において ASIC の温度/電圧ブロックに断続的に発生する問題です。Cisco Bug ID CSCtw79052 では、この問題の既知の原因が説明されています。
これは、温度を内部でラッチする ASIC と有効なビットをサンプリングするソフトウェアの間のタイミングの問題です。問題は、それが 12 のクリッパーインスタンスのいずれかにヒットする可能性があることです。この問題に特定のトリガーはなく、断続的です。この問題はサービスに影響を与えません。また、この問題は、ドライバでのより多くの再試行を必要とする問題が温度読み取りロジックにあるために発生します。
解決方法
次のコマンドからの出力を収集し、Cisco Bug ID CSCtw79052 で確認します。
- show version
- show env temperature
- show sprom module <module #>
- Nexus# attach module <module #>
- <module#>#show hardware internal sensor event-history errors
問題:電源ダウン状態の Xbar エラー/C7010-FAB-1
C7010-FAB-1 が電源ダウン状態になり、次のエラーが表示されます。
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is CLOSE
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is OPEN
%PLATFORM-2-XBAR_REMOVE: Xbar 3 removed (Serial number XXX)
Xbar Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
3 0 Fabric Module N/A powered-dn
?
Xbar Power-Status Reason
--- ------------ ---------------------------
3 powered-dn failure(powered-down) since maximum number of bringups were exceeded
または、xbar ASIC エラーが表示されます。
%MODULE-4-MOD_WARNING: Module 15 (serial: XXX) reported warning due to
X-bar Interface ASIC Error in device 70 (device error 0xc4600248)
%OC_USD-SLOT15-2-RF_CRC: OC2 received packets with CRC error from MOD 15
through XBAR slot 3/inst 2
根本原因
この問題は、xbar モジュールの障害または装着不良か、シャーシスロットの故障が原因です。
解決方法
- 次のコマンドの出力を調べます。
- show version
- show module
- show logging
- show logging nvram
- show module internal exception-log
- show module internal event-history
- show core
- show system reset-reason
- show environment | in xbar
- show system internal platform internal event-history xbar X(X は xbar 番号)
- show system internal platform internal event-history xbar
- show system internal xbar all
- show system internal aclmgr event-history errors
- xbar モジュールのハード再装着を実行し、ステータスを確認します。
- 再装着に失敗した場合は、別のスロットで xbar をテストするか、別の xbar モジュールで同じスロットをテストして、シャーシに問題がないことを確認します。
- ステップ 2 とステップ 3 で実行したテストに基づいて、障害のあるハードウェアを交換します。
問題:N7K-C7010-FAN-F の障害ファンモジュール
次のファン障害の症状が 1 つ以上見られます。
%PLATFORM-5-FAN_STATUS: Fan module 3 (Serial number XXX)
Fan3(fab_fan1) current-status is FAN_FAIL
Nexus 7000#show environment fan
Fan3(fab_fan1) N7K-C7010-FAN-F 1.1 Failure (Failed Fanlets: 2 6 7 8 9 10 14 15 )
Fan4(fab_fan2) N7K-C7010-FAN-F 1.1 Ok
...
#show hardware
----------------------------------
Chassis has 4 Fan slots
----------------------------------
Fan3(fab_fan1) failed
Model number is N7K-C7010-FAN-F
...
根本原因
ほとんどの場合、これは、ファンまたはシャーシスロットの障害です。
解決方法
- 次のコマンドの出力を調べます。
- show version
- show module
- show inventory
- show log
- show log nvram
- show environment fan
- この N7K-C7010-FAN-F を別の正常なシャーシでテストします。
- ステップ 1 とステップ 2 の結果に基づいて、ファンまたはシャーシを交換します。
問題:%PLATFORM-2-PS_CAPACITY_CHANGE 電源装置アラーム
容量の変化に関してアラームが生成され、非常に頻繁に生成される場合もあります。
%PLATFORM-2-PS_CAPACITY_CHANGE: Power supply PS2 changed its capacity.
possibly due to On/Off or power cable removal/
2013 Oct 17 17:06:40 ... last message repeated 14 times
根本原因
この問題は、電源ケーブルの障害または切断か、電源装置の障害が原因です。
解決方法
show env power detail コマンドの出力を確認し、電源装置のステータスを調べます。この出力例では、両方のコードが接続されていますが、2 番目のコードは 3000 W ではなく 1200 W の容量しか示しておらず、これは N7K-AC-6.0KW では 220 V AC 用である必要があります。電源は正常であることがテスト済みです。電源装置を交換してください。
PS_2 total capacity: 4200 W Voltage:50Vchord 1 capacity: 3000 W chord 1
connected to 110v AC chord 2 capacity: 1200 W chord 2 connected to 220v AC
問題:%PLATFORM-5-PS_STATUS: PowerSupply X PS_FAIL アラーム
次のアラートがプラットフォームで表示されます。
%PLATFORM-5-PS_STATUS: PowerSupply 3 current-status is PS_FAIL
%PLATFORM-2-PS_FAIL: Power supply 3 failed or shut down (Serial number xxxxx)
根本原因
このアラートは、電源ケーブルの障害または切断か、電源装置の障害が原因です。
解決方法
- 次のコマンドの出力を調べます。
- show environment power detail
- show power
- 障害が発生した電源装置を再装着します。電源がオフラインにならないように、冗長電源装置を使用します。
- 電源装置の RMA を送信します。電源がオフラインにならないように、冗長電源装置を使用します。
参考資料
Cisco Nexus 7000 シリーズの電源装置の冗長性
問題:FEX の電源装置の問題
FEX の電源装置に関する次のアラームが表示されます。
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Module 1: Runtime diag detected major event:
Voltage failure on power supply: 1
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 System minor alarm on power
supply 1: failed
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Recovered: System minor alarm
on power supply 1: failed
解決方法
ハードウェアと電源の問題を確認します。ソフトウェアの問題がある場合、エラー メッセージはハードウェアを交換した後も続きます。
これらの問題を解決する方法は次のとおりです。
- FEX の電源装置を再装着します。電源がオフラインにならないように、冗長電源装置を使用します。
- FEX の電源装置の RMA を送信します。電源がオフラインにならないように、冗長電源装置を使用します。
- 2 番目の電源モジュールに対して、この手順を繰り返します。
障害の状態を規定しやすくするために次の質問を確認し、答えてください。
- 影響を受けている FEX 電源モジュールは何台ですか。
- マイナー アラームの場合に、入力ソースを交換しましたか。その結果、違いがありましたか。
- 他に問題のある FEX の電源装置はありますか。
- 同じ電源モジュールの他のボックスはありますか。
- 電源コードを交換しましたか。
- 環境に電力サージまたは障害はありましたか。
障害を調べるには、次のコマンドの出力を収集します。
- show sprom fex 100 all
- show logging log | no-more
- show tech fex 100 | no-more
- attach fex 100
- show platform software satctrl trace
既知のソフトウェア不具合
Cisco Bug ID CSCtr77620
問題:N7K-AC-6.0KW 電源装置が障害として報告される
Emerson 社の電源装置である N7K-AC-6.0KW が障害/シャットダウン(Fail/Shut)として報告されますが、スイッチは正常に動作しており、問題のある電源装置に関して 0 ではない実際の出力が表示されます。
根本原因
両方の入力がアクティブな電源では、入力が切断されてから再接続され、1.5 秒以内に再び切断されると、電源装置が低電圧障害をラッチする可能性があり、NX-OS が電源装置に障害があるというフラグを立てる可能性があります。別のバリエーションでは、2 つの入力がある電源装置で、1 つの入力を削除し、20 〜 30 秒待ちます。電源装置が断続的に内部障害アラームを生成する可能性があり、NX-OS が電源装置に障害があると報告します。
Cisco Bug ID CSCty78612 では、電源装置のファームウェアを変更して問題を修正しています。
Cisco Bug ID CSCuc86262 では、これらの誤った障害から回復するためのソフトウェア拡張機能が追加されています。NX-OS は、電源装置(PSU)のステータスを自律的に監視し、報告された状態が実際の状態と異なる場合は適切なステータスに変更するようになりました。
解決方法
show env power detail コマンドを入力し、実際の出力を確認して、誤った障害を確認します。
Nexus7000# show env power
Power Supply:
Voltage: 50 Volts
Power Actual Total
Supply Model Output Capacity Status
(Watts ) (Watts )
------- ------------------- ----------- ----------- --------------
1 N7K-AC-6.0KW 0 W 0 W Shutdown
2 N7K-AC-6.0KW 3888 W 6000 W Fail/Shut
PSU の電源を入れなおすと、誤った障害/シャットダウンステータスがクリアされます。
Cisco Bug ID CSCty78612 では、PSU のファームウェアを変更しています。ソフトウェアは、Cisco Bug ID CSCuc86262 によって機能が拡張されました。これにより、ランタイムの電源装置が正常に動作している場合に誤ったビットが修正され、誤った障害/シャットダウン通知から回復します。NX-OS バージョン 5.2(9)、6.1(3)、6.2(2) 以降は、RMA を回避する拡張機能を備えています。
問題:ソフトウェア パケット ドロップ
パケットの出力インターフェイスで設定された MTU よりも長い IP パケットのレートが高い場合に、大きいサイズのパケットの一部がドロップされます。
根本原因
これは正常な動作です。パケットの出力インターフェイスで設定された MTU よりも長い IP パケットをシステムが受信すると、システムはこのパケットをコントロールプレーンに送信し、コントロールプレーンがフラグメンテーションを処理します。NX-OS 4.1.3 以降では、レートリミッタがこのようなパントされたパケットに適用されます。これにより、デフォルトで最大 500 pps に制限されます。
解決方法
これは、Cisco Bug ID CSCsu01048 の既知のソフトウェア不具合です。
問題:USER-2-SYSTEM_MSG FIPS セルフテスト失敗システムエラー
「USER-2-SYSTEM_MSG FIPS self-test failure in DCOS_rand - netstack」というエラーが表示されます。
根本原因
乱数が生成されるたびに、条件付き乱数ジェネレータ(CRNG)セルフテストが実行されます。テストに失敗すると、Syslog メッセージがログに記録されます。これは、連邦情報処理標準(FIPS)勧告に従って行われます。ただし、乱数が再度生成されるため、この影響は無害です。
NX-OS には 2 種類の乱数ジェネレータ(RNG)があります。
- OpenSSL 暗号化ライブラリに実装されている FIPS RNG
- Linux の RNG である非 FIPS RNG
FIPS に従って、すべての RNG が条件付き乱数ジェネレータテスト(CRNGT)を実装する必要があります。 このテストでは、現在生成された乱数と前の乱数が比較されます。番号が同じである場合は、Syslog メッセージが生成され、乱数がもう一つ生成されます。
テストは、乱数の一意性を確保するために実行されます。乱数が再生成されるため、機能上の影響はありません。
解決方法
このメッセージは、システムの動作に無害です。Cisco NX-OS バージョン 5.2x 以降では、メッセージの重大度が 2 から引き下げられ、デフォルトのロギング設定では記録されなくなりました。このロギングは、スイッチのさまざまな機能に関する NX-OS の内部セルフテストの一部として行われます。
これは、Cisco Bug ID CSCtn70083 の既知のソフトウェア不具合です。