Introduzione
Questo documento descrive come identificare i problemi di memoria nelle schede ASR5K-PSC-32G (Packet Services Card 2 (PSC2)) e ASR5K-PSC-64G (Packet Services Card 3 (PSC3)). Il sintomo rilevato quando il problema è presente è la reimpostazione della scheda stessa. Tutte le informazioni necessarie per la risoluzione dei problemi sono disponibili in Mostra dettagli supporto (SSD).
Prerequisiti
Requisiti
Cisco raccomanda la conoscenza della CLI di Aggregation Services Router 5000 (ASR5K).
Componenti usati
Il documento può essere consultato per tutte le versioni software o hardware.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Problemi relativi alla memoria
La scheda Packet Services 2 (PSC2) o la scheda Packet Services 3 (PSC3) potrebbero bloccarsi a causa di un arresto anomalo del kernel o di un heartbeat mancante.
Crash del kernel
Un arresto anomalo del kernel può verificarsi quando la scheda presenta più errori di memoria correggibili o un singolo errore di memoria non correggibile. Per stabilire se il problema è l'arresto anomalo del kernel, attenersi alla seguente procedura:
- Nell'SSD, selezionare show crash list for kernel crash:
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
Una volta identificato il numero di arresto anomalo del kernel, controllare i dettagli del numero di arresto anomalo in show crash list. Nell'esempio precedente, Crash 87 è avvenuto nella Card 16.
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
L'"EDAC MC0: Riga CE 0, canale 0, etichetta "": Corrected error" insieme a ‘Kernel Panic’ indica un guasto alla memoria ed è necessaria un'autorizzazione RMA (Return Material Authorization).
Memoria non rilevata
È possibile che la scheda di linea PSC2/PSC3 venga riavviata con l'indicazione di heartbeat mancante. Uno dei motivi è che il sistema ha rilevato un DIMM non valido. Quando viene rilevato un DIMM non valido, la scheda tenta di riavviarsi più volte prima di passare allo stato Offline.
Per la scheda PSC2, nella scheda della console di debug di output x cpu 0 rilevata nell'SSD, vengono visualizzati questi errori:
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
Inoltre, il syslog verrà compilato con questo errore:
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
Per la scheda PSC3, nella scheda della console di debug di output x cpu 0 presente nell'SSD, viene visualizzato questo errore:
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
La scheda che ha questo problema deve essere sostituita.