Introduzione
In questo documento viene descritto come risolvere i problemi relativi alla scheda FSC (Fabric and Storage Card) quando si registra un trap SNMP con "ThreshFabricEGQDiscards".
Prerequisiti
Requisiti
Cisco raccomanda la conoscenza dei seguenti argomenti:
- StarOs
- Piattaforma ASR550
Componenti usati
Il documento può essere consultato per tutte le versioni software o hardware.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Problema
L'errore "ThreshFabricEGQDiscard" viene rilevato quando Single Event Upset (SEU) sul chipset Fabric Edge (FE) di una scheda FSC in uno chassis ASR5500. A causa di questo bit flip nelle tabelle FE, il chip FE inizia a corrompere i pacchetti (celle) nel fabric causando scartamenti della coda di uscita che portano a errori di battito cardiaco tra le schede.
Per visualizzare un esempio di questo problema, usare il comando show snmp trap history verbose dell'interfaccia della riga di comando (CLI).
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Questa riga è visualizzata sotto più schede console CPU:
Nota: comando debug console card is hidden/test command. Questo comando viene raccolto ogni volta per tutte le schede su ASR5500 quando il comando show support details viene eseguito sul nodo StarOs.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Risoluzione dei problemi
Controllare se le cadute in uscita sono in aumento.
Nota: Se gli errori di fabric aumentano e si esegue il nodo StarOs nella versione 19.0 o successive, passare alla sezione Soluzione in questo articolo.
Nota: Se gli errori dell'infrastruttura aumentano e si esegue la versione del nodo StarOs successiva alla versione 19.0, aumentare la richiesta di assistenza verso TAC.
Passaggio 1. Accedere alla modalità di test. Di seguito viene riportata la documentazione per abilitarla sul nodo StarOs.
cli test-commands [encrypted] password password
Passaggio 2. Verificare lo stato dell'infrastruttura.
show fabric health | grep -i -E "^Petra-B|EGQ"
Esempio di output in assenza di problemi:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ" Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Esempio di output in cui si verifica un aumento dei pacchetti ignorati EGQ:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Soluzione
Meccanismo di recupero automatico
Tipo di modifica del comportamento:
Nuovo comando CLI per abilitare la procedura di ripristino/ripristino automatico FSC in caso di rilevamento di eliminazioni eccessive in uscita dal fabric
Versione introdotta:
19.0
Vecchio comportamento:
Processo di ripristino manuale per ripristinare FSC.
Nuovo comportamento:
Nuovi comandi di configurazione CLI, consultare la documentazione:
il ripristino automatico fabric fsc abilita max-try <X> per abilitare questa funzionalità.
max-tentativi è il numero di volte che reimposta ogni FSC. Per impostazione predefinita, il valore massimo tentativi è illimitato.
ripristino automatico fabric fsc disabilitato per disabilitare questa funzionalità.
show afctrl fsc-auto-recovery visualizza i dettagli sul recupero automatico FSC, inclusi i dispositivi ancora da reimpostare, il conteggio resettaggi, il numero massimo di tentativi, lo stato della soglia di rilascio e la cronologia del recupero automatico FSC.
Attenzione: Impatto sul cliente: I dispositivi FSC FE vengono reimpostati e tutti i pacchetti in volo vengono persi.
Nota: Tutti i valori, ad eccezione della cronologia, vengono replicati quando viene eseguito il failover della memoria MIO.