Introduzione
In questo documento viene descritto come risolvere gli errori CRC (Capture Resource Center) di ASR5500 Delivery Collaboration Portal (DCP) e MIO.
Premesse
In caso di rilevamento di errori CRC, ASR5500 è progettato per eseguire la riparazione automatica e il ripristino automatico. Nella maggior parte dei casi, quando si esegue un soft reset non intrusivo dei processi interni e lo switchover automatico della scheda, il sistema viene ripristinato dal danneggiamento dei pacchetti.
Problema
Quando viene rilevato un errore software (errore CRC), StarOS tenta prima di recuperarlo in modo proattivo reimpostando a livello software i processi interni rilevanti, ad esempio npumgr e DDF reload. Se il ripristino non riesce, la scheda viene riavviata automaticamente per cancellare l'errore software ed eseguire il controllo hardware completo della scheda.
In seguito al rilevamento di errori CRC da parte di DPC/UPDC/DPC2/UDPC2/MIO/UMIO, una delle prime operazioni di ripristino eseguite dal sistema consiste nel ripristino a caldo dei processi associati al chipset interessato. In questo esempio, i log di show logs'/syslog e della console di debug della scheda 8 hanno rilevato un errore CRC e sono stati ripristinati.
2021-Aug-01+01:01:01.711 [drvctrl 39204 error]
[8/0/7058 <hwmgr:80> hw_common_lib.c:492]
[software internal system syslog] hw_mon_elem_changed:
Detected DDF RELOAD on CRC error: card 8, device DDF1
2021-Aug-01+01:01:01.727 card 8-cpu0: [23552535.124999]
DF2 Complex-0 Program DDF2 CAF_DF1_PROG_ERR error detected on FLM123456AB
In alcune situazioni, se il riavvio del processo non ripristina il sistema, le schede DPC/UPDC/DPC2/UDPC2/MIO/UMIO vengono riavviate automaticamente. In questo esempio, nei log di show logs, system syslog e/o nei log della console di debug, la scheda interessata viene riavviata automaticamente dal sistema non appena vengono rilevati errori CRC. In questi registri, la scheda 6 è stata riavviata ed è tornata in stato di standby.
2021-Jun-20+10:11:12.150 [hat 3033 error]
[5/0/7094 <hatsystem:0> atsystem_fail.c:1470]
[hardware internal system critical-info diagnostic]
Card error detected on card 6 device DDF reason DDF_CRC_ERROR
2021-Jun-20+10:11:12.201 [rct 13013 info]
[software internal system critical-info syslog] Card 6 shutdown started
2021-Jun-20+10:11:12.201 [afctrl 186001 error]
[5/0/7169 <afctrl:0> l_msg_handler.c:277]
[software internal system critical-info syslog]
afctrl_bcf_scrmem_doorbell_callback: Slot 6 scratch memory driver error
******** show rct stats *******
RCT stats Details (Last 1 Actions)
Action Type From To Start Time Duration
----------------- --------- ---- ---- ------------------------ ----------
Shutdown N/A 6 0 2021-Jun-20+10:11:12.201 0.002 sec
Soluzione
La maggior parte degli errori CRC rilevati su DPC e scheda MIO sono errori temporanei che vengono recuperati automaticamente dal sistema. Se la scheda viene riavviata e riattivata, non sono necessarie ulteriori azioni. Se il sistema non è in grado di eseguire il ripristino automatico da questi errori, il sistema mette offline la scheda di elaborazione dati interessata dopo 3 tentativi di ripristino. Se la scheda viene riavviata e torna nello stato di standby, non sono necessarie ulteriori azioni. In rare situazioni, se il sistema non è in grado di eseguire il ripristino automatico dal CRC, contattare Cisco TAC.