概要
このドキュメントでは、ASR5K-PSC-32G(Packet Services Card 2(PSC2))およびASR5K-PSC-64G(Packet Services Card 3(PSC3)カードのメモリ問題を特定する方法について説明します。問題が発生した場合に表示される症状は、カード自体がリセットすることです。トラブルシューティングに必要なすべての情報は、Show Support Detail(SSD)で確認できます。
前提条件
要件
アグリゲーションサービスルータ(ASR5K)5000(ASR5K)のCLIに関する知識があることが推奨されます。
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。対象のネットワークが実稼働中である場合には、どのようなコマンドについても、その潜在的な影響について確実に理解しておく必要があります。
メモリの問題
Packet Services Card 2(PSC2)またはPacket Services Card 3(PSC3)のいずれかが、カーネルのクラッシュまたはハートビートの欠落によりクラッシュする可能性があります。
カーネルクラッシュ
カードで複数の訂正可能メモリエラーまたは単一の訂正不能メモリエラーが発生すると、カーネルクラッシュが発生する可能性があります。問題がカーネルのクラッシュであるかどうかを確認するには、次の手順を実行します。
- SSDで、show crash list for kernel crash:
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
カーネルクラッシュのクラッシュ番号が特定されたら、show crash listでクラッシュ番号のクラッシュの詳細を確認します。前の例では、Card 16でCrash 87が発生しています。
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
"EDAC MC0:CE行0、チャネル0、ラベル":Corrected error」と「Kernel Panic」のクラッシュはメモリ障害を示し、返品許可(RMA)が必要です。
メモリが検出されない
PSC2/PSC3ラインカードが、「Missing Heartbeat」と表示されてリブートする場合があります。原因の1つは、システムで不良DIMMが検出されたことです。不良DIMMが検出されると、カードはオフライン状態になる前に何度もリブートを試みます。
PSC2カードの場合、SSDにあるdebug console card x cpu 0の出力には、次のエラーが表示されます。
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
また、syslogには次のエラーが表示されます。
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
PSC3カードの場合、SSDにあるdebug console card x cpu 0の出力に、次のエラーが表示されます。
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
この問題が発生したカードを交換する必要があります。