概要
このドキュメントでは、アグリゲーションサービスルータ(ASR5500)のEZprmSER_CheckErrorが原因でトリガーされるnpumgr再起動のトラブルシューティング方法について説明します。
前提条件
要件
次の項目に関する知識があることが推奨されます。
- ASR5500のハードウェアに関する知識
- StarOS
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
問題
ネットワーク処理装置(NPU)メモリエラーが検出されると、このシグニチャでNPUMGRセグメンテーション障害が発生する可能性があります。
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
この再起動は、データ処理カード(DPC)と管理入出力(MIO)カードの両方で確認できます。
再起動の原因となるイベントは、次のように要約できます。
- NPUでメモリエラー(シングルビットECCエラー)が検出されました。
- NPUは、メモリエラーが検出されたことをnpumgrドライバに割り込みます。
- Npumgrはメモリをスキャンしてエラーを検出し、npudriverコードから再起動しようとします。
NPUは、カードのNPUでパリティ(またはメモリ)エラーが発生するたびに再起動されます。これは、npumgrタスクが再起動する場合のノードの反応と同様です。再起動のトリガーは、観察されたメモリエラーに対するNPU割り込みであることがわかっているため、この再起動は一時的なハードウェアエラーと見なされます。
宇宙線や静電放電は、ビットがメモリ内で反転する原因となることに注意してください。これはECCが正しいものです。
いずれかのカードで1つのECCエラーが発生した場合は、実際には予期されるイベントです。
カードに1か月以内に複数のECCエラーが発生した場合、カードにハードウェアの問題が発生している可能性があります。
解決方法
シスコでは、カードを監視し、1か月以内にカードに同様の問題が発生した場合は交換することを推奨しています。
このイベントは、データ収集を実行してこのセグメンテーション障害をデバッグしている間に、NPUのメモリエラー回復の高速npu再起動中にトリガーされます。
Cisco Bug ID CSCvu44031は、セグメンテーション障害を修正しています。