はじめに
このドキュメントでは、シスコ ルータのパリティエラーの原因とそのトラブルシューティング方法について説明します。
前提条件
要件
ルータのクラッシュのトラブルシューティング方法に関する知識があることが推奨されます。
詳細は、「トラブルシューティング:ルータのクラッシュ」を参照してください。
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。対象のネットワークが実稼働中である場合には、どのようなコマンドについても、その潜在的な影響について確実に理解しておく必要があります。
表記法
表記法の詳細については、『シスコ テクニカル ティップスの表記法』を参照してください。
パリティ エラーの識別
メモリ パリティ エラーが発生するのは、次のようなマルチチャネル インターフェイス プロセッサ(MIPS)ベース プロセッサの製品です。
-
Cisco 4500/4700 シリーズ ルータ
-
Cisco 7500 シリーズ ルータ(RSP1、RSP2、RSP4、RSP8、VIP2-10、VIP2-15、VIP2-20、VIP2-40、VIP2-50)
-
Cisco 7000 シリーズ ルータ(RSP 7000)
-
Cisco 7200 シリーズ ルータ(NPE-100、NPE-150、NPE-175、NPE-200、NPE-225、NPE-300)
-
Cisco 12000 シリーズ インターネット ルータ
次のメッセージは、すべてシステム内のどこかで不正なパリティが検出されたことに関連しています(このリストですべてを網羅しているわけではなく、最も一般的なメッセージを示しています)。
-
show version コマンドの出力では、次のようになります。
System restarted by processor memory parity error at PC 0x6014F7C0,
address 0x0
または
System restarted by shared memory parity error at PC 0x60130F40
ご使用のCiscoデバイスの、show versionコマンドの出力データがあれば、Cisco CLI Analyzerを使用して今後予想される障害と修正を表示できます。Cisco CLI Analyzerを使用するには、登録ユーザとしてログインし、さらにJavaScriptを有効にしている必要があります。
-
コンソール ログまたは crashinfo ファイル
- *** Cache Error Exception ***
Cache Err Reg = 0xa401a65a
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
- Error: primary data cache, fields: data,
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
Low Data High Data Par Low Data High Data Par
L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Low Data High Data Par Low Data High Data Par
Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
- *** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
- %PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
- %RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
- %RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
- %RSP-3-ERROR: MD error 00800080C000C000
%RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
%RSP-3-RESTART: cbus complex
ソフト パリティ エラーとハード パリティ エラー
パリティ エラーには、次の 2 種類があります。
研究によれば、ソフト パリティ エラーはハード パリティ エラーの 10~100 倍の頻度で発生します。そのため、2 つ目のパリティ エラーが発生しない限りは何も交換しないことを推奨します。これによりネットワークへの影響を大幅に低減できます。
問題の特定
ルータには、さまざまな場所にメモリがあります。理論的には、パリティ エラーはどんなメモリ域にも影響しますが、メモリの問題は、ほとんどがダイナミック RAM (DRAM) か共有 RAM (SRAM) で起こります。ここでは、問題が発生したメモリ ロケーションを見つける方法と、ハード パリティ エラーであることが判明した場合に交換する必要のある部分について、プラットフォームに基づいて説明しています。
Cisco 4500 および 4700 プラットフォーム
Cisco 4500および4700プラットフォームでは、Cisco IOS®ソフトウェアリリース12.2(10)および12.2(10)Tよりも前のバージョンでは、crashinfoファイルは使用できません。
エラーが発生した場所を見つけるには、コンソール ログおよび show version コマンドの出力で「restart reason」を確認します。
-
DRAM のパリティ エラー:
クラッシュが発生した後に手動でルータをリロードしていなければ、show version の出力は次のようになります。
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
crashinfo ファイルがある場合や、コンソール ログをキャプチャした場合は、次のような出力も得られます。
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
DRAM でパリティ エラーが繰り返し発生する場合は、DRAM またはシャーシに障害があります。最近シャーシを取り外したか、ハードウェア構成を変更したのであれば、問題を解決するには DRAM チップを差し直します。そうでない場合は、まず DRAM を交換します。これにより、パリティ エラーの発生が防止されるはずです。それでもルータがクラッシュするようであれば、シャーシを交換します。
-
SRAM のパリティ エラー:
クラッシュが発生した後に手動でルータをリロードしていなければ、show version コマンドの出力は次のようになります。
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
crashinfo ファイルがある場合や、コンソール ログをキャプチャした場合は、次のような出力も得られます。
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
または
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
または
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
注:
-
CPU に関するエラーが報告される場合は、SRAM を交換します。
-
NIM(x)のエラーが報告される場合は、スロット(x)のネットワーク モジュールを交換します。スロット(x)に割り当てられている SRAM も該当する可能性があります。この場合は SRAM を交換します。
SRAM で繰り返し発生するパリティ エラーは、SRAM チップが不良であるか、ネットワーク モジュールが不良であるために SRAM に不良パリティが書き込まれていることを示しています。最近シャーシを取り外したか、ハードウェア構成を変更したのであれば、問題を解決するにはネットワーク モジュールと SRAM チップを差し直します。そうでない場合は、どこにエラーが発生しているかをコンソール ログで確認します(上記の出力例を参照)。
ルート/スイッチ プロセッサ(RSP)、ネットワーク処理エンジン(NPE)、およびルート プロセッサ(RP)のプラットフォーム
Cisco 4000 シリーズでは、これらのプラットフォームの不良な DRAM や SRAM が問題の原因になっている可能性があります。また、不良なプロセッサ カード(RP、RSP または NPE)も問題の原因になります。Cisco 7000 および 7500 でも、不良な、あるいは装着が不完全なインターフェイス プロセッサ(レガシー xIP または VIP)によってパリティ エラーが発生することがあります。
crashinfo ファイルおよびコンソール ログに、次のいずれかのエラー メッセージが出力されていないかどうかを確認してください。
DRAM または SRAM(MEMD)のパリティ エラー
RP、RSP および NPE では、通常、次のような表示があります。
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
または、単に
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
これは、RSP 自体に問題があることを示しています。問題が 1 回だけ発生するようであれば、一時的な現象である可能性が高いと言えます。
SRAM に起因するパリティ エラー
RSP の場合、メッセージは次のようになります。
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
または
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
SRAM に不良パリティを書き込む他のインターフェイス プロセッサ(たとえば、VIP2-1-MSG エラー メッセージ)が示されていない場合、そのパリティ エラーの原因は、SRAM 自体にある可能性が高いと言えます。この場合は、RSP を交換します。
他のエラー メッセージに、インターフェイス プロセッサによる不良パリティの書き込みが示されている場合は、そのカードが不良か、あるいはカードが正しく装着されていない可能性があります。
Versatile Interface Processor
%VIP2-1-MSG: slot(x) メッセージがログまたは crashinfo ファイルに表示される場合は、『トラブルシューティング:バーサタイル インターフェイス プロセッサのクラッシュ』を参照してください。
推奨される対処法
パリティ エラーが初めて発生した時点では、ソフト パリティ エラーかハード パリティ エラーかを判別することはできません。過去の事例からすると、ほとんどのパリティ エラーはソフト パリティ エラーで、通常は無視できるものです。最近、何らかのハードウェアを変更したか、ボックスを移動した場合は、該当するすべての部品(DRAM、SRAM、NPE、RP、RSP、または VIP)を挿し直してみてください。複数のパリティ エラーが頻発する場合は、ハードウェアに障害があることを意味します。上記の指示を使用して、該当部分(DRAM、RSP、VIP、またはマザーボード)を交換します。
TAC のサービスリクエストをオープンする場合に収集すべき情報
上記のトラブルシューティング方法を実行した後も、依然としてサポートが必要で、Cisco TAC でサービス リクエストをオープンする必要がある場合は、必ず次の情報を添付してください。 |
- サービス リクエストをオープンする前に実施したトラブルシューティング
- show technical-support コマンドの出力(可能な場合はイネーブル モードで)
- show log コマンドの出力またはコンソールのキャプチャ(可能な場合)
- crashinfo ファイル(ファイルがあり、show technical-support コマンドの出力に含まれていない場合。crashinfo ファイルが複数ある場合は、それらをすべて含めてください。)
- プロセッサ メモリのパリティ エラーが原因で発生したリロードの数と、それらが発生した日時。
収集したデータは、圧縮しないプレーンなテキスト形式(.txt)でサービス リクエストに添付してください。情報をサービス リクエストに添付するには、TAC Service Request Tool(登録ユーザ専用)を使用してアップロードします。Service Request Tool にアクセスできない場合は、お客様の電子メールに関連情報を添付し、メッセージの件名の行にお客様のサービス リクエスト番号を記入して attach@cisco.com にその電子メールを送信してください。 注:プロセッサメモリパリティエラーのトラブルシューティングに必要でない限り、上記の情報を収集する前にルータを手動でリロードしたり、電源のオフ/オンを行わないようにしてください。これを行うと、問題の根本原因の判別に必要な、重要な情報が失われる可能性があります。 |
関連情報