De documentatie van dit product is waar mogelijk geschreven met inclusief taalgebruik. Inclusief taalgebruik wordt in deze documentatie gedefinieerd als taal die geen discriminatie op basis van leeftijd, handicap, gender, etniciteit, seksuele oriëntatie, sociaaleconomische status of combinaties hiervan weerspiegelt. In deze documentatie kunnen uitzonderingen voorkomen vanwege bewoordingen die in de gebruikersinterfaces van de productsoftware zijn gecodeerd, die op het taalgebruik in de RFP-documentatie zijn gebaseerd of die worden gebruikt in een product van een externe partij waarnaar wordt verwezen. Lees meer over hoe Cisco gebruikmaakt van inclusief taalgebruik.
Cisco heeft dit document vertaald via een combinatie van machine- en menselijke technologie om onze gebruikers wereldwijd ondersteuningscontent te bieden in hun eigen taal. Houd er rekening mee dat zelfs de beste machinevertaling niet net zo nauwkeurig is als die van een professionele vertaler. Cisco Systems, Inc. is niet aansprakelijk voor de nauwkeurigheid van deze vertalingen en raadt aan altijd het oorspronkelijke Engelstalige document (link) te raadplegen.
Dit document domschrijven onverwachte herladingen of crashes op Nexus 9000 switches oplossen.
Dit document bevat geen vereisten.
Dit document is niet beperkt tot specifieke software- en hardware-versies.
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u zorgen dat u de potentiële impact van elke opdracht begrijpt.
Cisco NX-OS is een veerkrachtig besturingssysteem dat specifiek is ontworpen voor hoge beschikbaarheid op netwerk-, systeem- en procesniveau.
Er zijn 3 redenen waarom een onverwachte herlading kan optreden op Nexus 9000:
De kernel zelf stuit op een onherstelbare toestand en crasht.
N9K#show system reset-reason module 1 ----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) --- 1) At 21301 usecs after Tue Jan 17 20:29:20 2023 Reason: Reset Requested due to Fatal Module Error Service: ipfib hap reset Version: 9.3(8)
N9K#show cores
VDC Module Instance Process-name PID Date(Year-Month-Day Time)
--- ------ -------- --------------- -------- -------------------------
A B C D E 2024-01-04 19:17:25
copy core://<module-number>/<process-id>[/instance-num]
copy core://B/E/C ftp://<address>/<directory>
show logging onboard
show logging onboard kernel-trace
show logging onboard stack-trace
**************************************************************
STACK TRACE GENERATED AT Sun Sep 10 19:06:39 2023 CCT
**************************************************************
<snip> >>>dumps kernel massages before reload
<0>[10925084.972289] [1694343998] sysServices Unexpected call in interrupt context, serviceId=824
<0>[10925084.980666] [1694343998] cctrl_set_card_offline - EOBC switch reset failed
<0>[10925084.987824] [1694343998] sysServices Unexpected call in interrupt context, serviceId=824
<0>[10925084.996200] [1694343998] cctrl_set_card_offline - EPC switch reset failed
<snip>
<4>[10925085.040600] [1694343998] Dumping interrupt statistics >>>dump interrupt statictics
<4>[10925085.045928] [1694343998] CPU0 CPU1
<4>[10925085.051732] [1694343998] 3: 0 0 axp_irq Armada Error Handler
<4>[10925085.059909] [1694343998] 4: 0 0 axp_irq Armada MBUS unit Error Handle
<4>[10925085.068957] [1694343998] 5: 1012335907 809985523 axp_irq axp_local_clockevent
<4>[10925085.077136] [1694343998] 8: 1260801154 0 axp_irq mv_eth
<4>[10925085.084108] [1694343998] 31: 11230 0 axp_irq mv64xxx_i2c
<4>[10925085.091508] [1694343998] 41: 7111 1 axp_irq serial
<4>[10925085.098471] [1694343998] 51: 2 0 axp_irq mv_xor.0
<4>[10925085.105602] [1694343998] 52: 2 0 axp_irq mv_xor.1
<4>[10925085.112760] [1694343998] 94: 1 0 axp_irq mv_xor.2
<4>[10925085.119890] [1694343998] 95: 1 0 axp_irq mv_xor.3
<4>[10925085.127029] [1694343998] 107: 0 0 axp_irq axp-temp
<4>[10925085.134200] [1694343998] 168: 0 0 axp_irq cctrl_mrv_nmi_irq
<4>[10925085.142134] [1694343998] 195: 29 0 axp_msi_irq cctrl_sc_msi_irq
<4>[10925085.150225] [1694343998] 196: 0 2399172865 axp_msi_irq linux-kernel-bde
<4>[10925085.158325] [1694343998] IPI0 : 0 0 Timer broadcast interrupts
<4>[10925085.166130] [1694343998] IPI1 : 1711470501 3532640372 Rescheduling interrupts
<4>[10925085.173672] [1694343998] IPI2 : 0 0 Function call interrupts
<4>[10925085.181302] [1694343998] IPI3 : 44582 118572 Single function call interrupts
<4>[10925085.189541] [1694343998] IPI4 : 0 0 CPU stop interrupts
<4>[10925085.196734] [1694343998] PMU: : 0 0
<4>[10925085.202186] [1694343998] Err : 0
show logging onboard exception-log >>>Check if any exception is raised before reload
N9K# show processes log details >>>detail process memory usage prior to crash
Service: ethpm
Description: Test Ethernet Port Manager
Executable: /isan/bin/ethpm
Started at Wed Jun 5 18:20:46 2023 (251615 us)
Stopped at Sat Jun 8 00:08:53 2023 (661042 us)
Uptime: 2 days 5 hours 48 minutes 7 seconds
Start type: SRV_OPTION_RESTART_STATELESS (23)
Death reason: SYSMGR_DEATH_REASON_FAILURE_SIGNAL (2)
Last heartbeat 48.10 secs ago
System image name:
System image version: 7.0(3)I7(6)
PID: 28914
Exit code: signal 5 (core dumped)
CWD: /var/sysmgr/work
RLIMIT_AS: 1019819820 >>>limit memory usage
Virtual Memory:
CODE 1007E000 - 1068DBD4
DATA 1068E000 - 106DC3E8
BRK 1194F000 - 11CF9000
STACK FFA28650
TOTAL 576004 KB >>>memory usage before crash
Er is een ingebouwde logflash op Nexus 9000, logbestanden overleven na het herladen.
N9K#dir logflash:log | grep messages
3714961 Jan 13 18:05:31 2024 messages
4194331 Jan 13 17:30:14 2021 messages.1
5497842 May 11 15:59:00 2021 messages.2
4194341 Jul 30 07:25:36 2022 messages.3
4194510 Feb 09 14:50:50 2023 messages.4
4194426 Jun 04 05:00:40 2023 messages.5
N9K#show file logflash:log/messages
N9K#show file logflash:log/messages.1
N9K#show file logflash:log/messages.2
N9K#show file logflash:log/messages.3
N9K#show file logflash:log/messages.4
N9K#show file logflash:log/messages.5
N9K#show system reset-reason
----- reset reason for module 1 (from Supervisor in slot 1) ---
1) At 280125 usecs after Fri Aug 4 02:01:14 2023
Reason: Module PowerCycled
Service: HW check by card-client
Version:
Nexus 9000 switch ondersteunt N+1 voedingsredundantie. Als een stroomstoring op de meeste of alle stroombronnen optreedt, wordt de stroom opnieuw geladen.
1. Controleer de voedingskabels van de voedingen.
2. Controleer of ook andere apparaten met dezelfde ingang een stroomonderbreking hebben gehad.
3. Controleer of er een stroomgerelateerd alarm is op Nexus 9000 of PDU.
N9K#show system reset-reason module 1
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1)
1) At 21301 usecs after Tue Jan 17 20:29:20 2023
Reason: Reset Requested due to Fatal Module Error
Service: ipfib hap reset >>>ipfib process reset
Version: 9.3(8)
Elke service heeft een eigen beleid voor hoge beschikbaarheid (HA), inclusief een hartslagtimer, herstartmethode en stateful reset max. Cisco NX-OS-software maakt stateful herstart van de meeste processen en services mogelijk. Het opnieuw laden vindt plaats als het beleid van het proces opnieuw wordt ingesteld (NX-OS kan niet werken tijdens het opnieuw opstarten van het proces) of de tijden van het opnieuw starten van het proces bereiken max. opnieuw proberen.
`show cores` VDC Module Instance Process-name PID Date(Year-Month-Day Time) --- ------ -------- --------------- -------- ------------------------- 1 1 1 ipfib 27446 2023-01-17 20:30:30
copy core://1/27446/1 ftp://<address>/<directory>
Het grootste deel van het proces crash is software defect en het kernbestand wordt opgeslagen, open een service aanvraag case om te bevestigen.
2018 Jan 21 01:56:42.789 N9K#%KERN-0-SYSTEM_MSG: [4590707.849157] [1516460202] EMON: module 2 is not responding on EOBC path. Reloading module. - kernel 2018 Jan 21 01:56:43.071 N9K#%MODULE-2-MOD_DIAG_FAIL: Module 2 (Serial number: xxxxxxxxxx) reported failure due to EOBC heartbeat failure in device DEV_EOBC_MAC (device error 0xc0a1b137)
EOBC is kort voor Ethernet Out of Band Channel. Regelmatige keepalives gaan tussen de toezichthouder en lijnkaarten. De foutmeldingen die je hebt ontvangen duiden op een hartslag die ontbrak tussen SUP en linecard. Als één hartslag ontbreekt, kan deze automatisch worden genegeerd. Echter, als meerdere hartslagen tegelijkertijd verloren gaan, dan zou de lijnkaart worden gereset.
Er zijn gewoonlijk 3 redenen voor EOBC mislukking:
1. EOBC-congestie. Je kunt meer dan 1 lijnkaartervaring zien die EOBC verloren heeft.
2. CPU-hanger in specifieke module(s). Linecard/supervisor CPU is bezig en kan geen EOBC berichten verwerken. Er is een software verbetering vanaf Nexus 9000 vanaf 7.0(3)I7(3).
3. Hardware is defect.
1. Controleer of er een CPUhog is voor een beschadigde lijnkaart bij het opnieuw laden.
2. Controleer of andere linecard EOBC verlies rond reload ervaren.
3. Controleer of er onlangs een BFD- of NetFlow CPU-verbruiksservice is geïnstalleerd.
4. Als deze meerdere malen voorkomt zonder enige informatie, vervang dan de hardware.
N9K#show logging onboard stack-trace ************************************************************** STACK TRACE GENERATED AT Tue Sep 21 02:27:58 2021 UTC ************************************************************** <0>[88302546.800770] [1632158876] ERROR: MACHINE: Uncorrectable <0>[88302546.809202] [1632158876] L2CACHE ERROR: Cause 0x88 <0>[88302546.814368] [1632158876] TAG Parity Error >>>>>Parity error <0>[88302546.818750] [1632158876] Kernel panic - not syncing: L2CACHE ERROR <4>[88302546.825212] [1632158876] Cpu: 0 Pid: 0, comm: swapper/0
Een pariteitsfout treedt op wanneer een bit informatie wordt gespiegeld van 1 naar 0 of 0 naar 1.
De meeste pariteitsfouten worden veroorzaakt door elektrostatische of magnetische omgevingsomstandigheden. Deze gebeurtenissen treden willekeurig op en kunnen niet worden voorkomen.
Systemen detecteren dat deze fout is opgetreden en dwingen het systeem te crashen om te voorkomen dat er onjuiste gegevens worden verwerkt. Eén voorval is geen indicatie van een hardware- of softwareprobleem.
Pariteitsfouten kunnen tijdelijke single-event upsets (SEU) zijn, of ze kunnen worden veroorzaakt door defecte hardware. Om te bepalen wat dit is, moet u het apparaat 48 uur controleren om te zien of het een herhaling heeft.
Indien geen tweede keer optreedt binnen 48 uur, wordt het probleem als van voorbijgaande aard beschouwd en is geen actie vereist.
Frequente of herhaalbare (harde) pariteitsfouten worden veroorzaakt door een fysiek defect van het geheugen of de stroomkring die wordt gebruikt om te lezen en te schrijven. Vervang in dat geval de hardware.
N9K#show logging onboard stack-trace
<6>[ 105.196227] CCTRL PANIC DUMP <6>[ 105.196229] ========================= <6>[ 105.196231] WDT last punched at 105192052644 <6>[ 105.196234] REG(0x60) = 3c <6>[ 105.196238] REG(0x64) = 0 <6>[ 105.196241] REG(0x300) = baadbeef <6>[ 105.196245] REG(0x304) = baadbeef <6>[ 105.196246] ========================= <0>[ 105.197303] nxos_panic: Kernel panic - not syncing: PCIE Uncorrectable error >>>>>PCIE Uncorrectable error
PCIE-fouten worden in twee soorten geclassificeerd: correcteerbare fouten en niet-correcteerbare fouten. Deze indeling is gebaseerd op het effect van die fouten, wat leidt tot een verslechtering van de prestaties of tot een functieuitval.
Correceerbare fouten hebben geen invloed op de functionaliteit van de interface. Het PCIE-protocol kan herstellen zonder enige softwareinterventie of enig verlies van gegevens. Deze fouten worden gedetecteerd en gecorrigeerd door de hardware.
Oncorrigeerbare fouten beïnvloeden de functionaliteit van de interface. Oncorrigeerbare fouten kunnen ertoe leiden dat een bepaalde transactie of een bepaalde PCIE-link onbetrouwbaar is. Afhankelijk van deze foutenvoorwaarden worden onherstelbare fouten verder ingedeeld in niet-fatale fouten en fatale fouten. Niet-fatale fouten zorgen ervoor dat de specifieke transactie onbetrouwbaar is, maar de PCIE-link zelf is volledig functioneel. Fatale fouten daarentegen maken dat de link onbetrouwbaar is.
Nexus 9000 detecteert fatale PCIE-fouten en dwingt het systeem om te herladen om te voorkomen dat er onjuiste gegevens worden verwerkt.
Hetzelfde geldt voor de pariteitsfout.
Indien geen tweede keer optreedt binnen 48 uur, wordt het probleem als van voorbijgaande aard beschouwd en is geen actie vereist.
Frequente of herhaalbare fouten worden veroorzaakt door een fysieke storing. Vervang in dat geval de hardware.
N9K#show system reset-reason ----- reset reason for module 1 (from Supervisor in slot 1) --- 1) At 88659 usecs after Mon Sep 24 18:33:04 2023 Reason: Watchdog Timeout Service: Version: 7.0(3)I7(9)
Watchdog timers worden meestal aangetroffen in ingebedde systemen en andere computergestuurde apparatuur waar mensen niet gemakkelijk toegang hebben tot de apparatuur of niet tijdig op fouten zouden kunnen reageren.
Nexus 9000 implementeert een horlogehond timer functie via FPGA. Hierdoor kan Nexus 9000 softwarehang detecteren en de switch direct opnieuw opstarten.
1. Controleer of een bekend softwarevirus de huidige versie beïnvloedt.
2. Als het probleem zich opnieuw voordoet, verzamelt u kernel-tracering en eventuele aanvullende registratiegegevens.
3. Open een case voor serviceaanvragen.
N9K# show system reset-reason
----- reset reason for module 1 (from Supervisor in slot 1) ---
1) At 343832 usecs after Sat Jan 13 17:58:53 2024
Reason: Reset Requested by CLI command reload
Service:
Version: 10.2(5)
>
4) At 282886 usecs after Fri Jan 12 07:42:33 2024
Reason: Reset due to upgrade
Service:
Version: 10.3(4a) >>>>>version prior to upgrading
De Nexus 9000 Series switches ondersteunen standaard verstorende software-upgrades en -downgrades. Nexus 9000 wordt tijdens de upgrade opnieuw geladen.
Verwacht gedrag. Controleer het accounting log voor meer CLI-sessiedetails.
Voorbeeld van CLI-opnieuw laden:
Sat Jan 13 17:58:40 2024:type=update:id=console0:user=admin:cmd=reload (REDIRECT)
Sat Jan 13 17:58:47 2024:type=update:id=console0:user=admin:cmd=Rebooting the switch
Voorbeeld van upgrade-opnieuw laden:
Fri Jan 12 07:35:52 2024:type=update:id=console0:user=admin:cmd=install all nxos bootflash:/nxos64-cs.10.2.5.M.bin (SUCCESS)
Sommige defecten kunnen leiden tot een onverwachte herlading op Nexus 9000 switches. Als u wilt bevestigen dat u een bekende softwarebug hebt geraakt, opent u een TAC-case.
Cisco bug-ID | Bug title | Versie herstellen |
Cisco fout-id CSCwd53591 | Opnieuw laden vanwege horlogehond time-out zonder kernen/sporen | 9.3(13) |
Cisco bug-id CSCvz65993 | tahoe0 uitgeschakeld met als gevolg een defect aan inband-connectiviteit | 9.3(9) |
Cisco bug-id CSCvs00400 | Kernel paniek en herladen als gevolg van Watchdog Time-out na link flaps | 9.3(3) en 7.0(3)I7(8) |
Cisco bug-id CSCvr57551 | Cisco Nexus 9000 herladingen met kernelpaniek - verzoek om paging van kernel niet kan worden uitgevoerd | 7.0(3)I7(8) en 9.3(4) |
Cisco bug-id CSCvo86286 | Kernel paniek gezien op 7.0(3)I7(x) met Nexus 9500 1st Gen lijnkaarten | 7.0(3)I7(7) |
Cisco bug-id CSCvx38752 | Geheugenlek waardoor Nexus 9k "ipfib" opnieuw kan laden | 7.0(3)I7(9) en 9.3(2) |
Cisco bug-id CSCvh13039 | LC/FM herlaadt dankzij EOBC-hartslag als CPU bezig met onderhoud-timer | 7.0(3)I4(8) en 7.0(3)I7(3) |
Revisie | Publicatiedatum | Opmerkingen |
---|---|---|
1.0 |
07-Feb-2024 |
Eerste vrijgave |