Introduzione
In questo documento viene descritto come risolvere i problemi relativi al riavvio di npumgr, attivato a causa di EZprmSER_CheckError in Aggregation Services Router 5500 (ASR5500).
Prerequisiti
Requisiti
Cisco raccomanda la conoscenza dei seguenti argomenti:
- Conoscenze hardware di ASR5500
- StarOS
Componenti usati
Il documento può essere consultato per tutte le versioni software o hardware.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Problema
Quando viene rilevato un errore di memoria NPU (Network Processing Unit), può verificarsi un errore di segmentazione di NPUMGR con questa firma.
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
Questo riavvio può essere rilevato sia sulle schede Data Processing Card (DPC) che sulle schede Management Input/Output (MIO).
Gli eventi che portano al riavvio possono essere riepilogati come segue:
- È stato rilevato un errore di memoria (errore ECC bit singolo) sulla NPU.
- NPU interrompe il driver npumgr che rileva un errore di memoria.
- Npumgr tenta di analizzare la memoria per individuare l'errore e di riavviarsi dal codice npudriver.
La NPU verrà riavviata ogni volta che viene rilevato un errore di parità (o di memoria) nella NPU per una scheda. Questa situazione è simile alla reazione del nodo per quando viene riavviata anche l'attività npumgr. Poiché il trigger per il riavvio è noto come interrupt NPU per un errore di memoria osservato, questo riavvio è considerato un errore hardware temporaneo.
Notate che un raggio cosmico o una scarica elettrostatica possono causare un bit ribaltamento in memoria - questo è ciò che ECC è lì per correggere.
Se si verifica un errore ECC in una delle schede, si tratta in realtà di un evento previsto.
Se una scheda presenta più di un errore ECC in un mese, si presume che la scheda abbia un problema hardware.
Soluzione
Cisco consiglia di monitorare la scheda e di sostituirla se si verifica un problema simile entro un mese.
L'evento viene attivato durante il riavvio rapido dell'npu per il ripristino degli errori di memoria sulla NPU durante l'esecuzione di una raccolta dati per il debug di questo errore di segmentazione.
Correzione in corso dell'errore di segmentazione con l'ID bug Cisco CSCvu44031.