소개
이 문서에서는 ASR5K-PSC-32G(PSC2(Packet Services Card 2)) 및 ASR5K-PSC-64G(PSC3(Packet Services Card 3)) 카드의 메모리 문제를 식별하는 방법에 대해 설명합니다.문제가 발생할 때 나타나는 증상은 카드가 자체적으로 재설정된다는 것입니다. 문제를 해결하는 데 필요한 모든 정보는 SSD(Show Support Detail)에서 확인할 수 있습니다.
사전 요구 사항
요구 사항
Aggregation Services Router 5000(ASR5K)의 CLI에 대해 알고 있는 것이 좋습니다.
사용되는 구성 요소
이 문서는 특정 소프트웨어 및 하드웨어 버전으로 한정되지 않습니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다.이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다.현재 네트워크가 작동 중인 경우, 모든 명령어의 잠재적인 영향을 미리 숙지하시기 바랍니다.
메모리 문제
PSC2(Packet Services Card 2) 또는 PSC3(Packet Services Card 3)가 커널 크래시 또는 하트비트 누락으로 인해 충돌할 수 있습니다.
커널 크래시
카드에 수정 가능한 메모리 오류가 여러 개 있거나 수정 불가능한 메모리 오류가 한 번 발생하면 커널 충돌이 발생할 수 있습니다.문제가 커널 크래시인지 확인하려면 다음 단계를 수행하십시오.
- SSD에서 show crash list for kernel crash를 선택합니다.
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
커널 크래시의 충돌 번호가 확인되면 show crash list에서 충돌 번호의 충돌 세부 정보를 확인합니다.앞의 예에서 Crash 87은 Card 16에서 발생했습니다.
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
"EDAC MC0:CE 행 0, 채널 0, 레이블 ":수정된 오류"와 'Kernel Panic' 충돌은 메모리 오류를 나타내며 RMA(Return Material Authorization)가 필요합니다.
메모리가 인식되지 않음
PSC2/PSC3 라인 카드는 Missing Heartbeat(하트비트 누락)로 재부팅될 수 있습니다.한 가지 이유는 시스템이 잘못된 DIMM을 감지했기 때문입니다.불량 DIMM이 감지되면 카드가 오프라인 상태로 전환되기 전에 여러 번 재부팅을 시도합니다.
PSC2 카드의 경우 SSD에 있는 출력 디버그 콘솔 카드 x cpu 0에서 다음 오류가 표시됩니다.
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
또한 syslog에 다음 오류가 입력됩니다.
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
PSC3 카드의 경우 SSD에 있는 출력 디버그 콘솔 카드 x cpu 0에서 다음 오류가 표시됩니다.
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
이 문제가 발생한 카드를 교체해야 합니다.