Inleiding
Het document bevat stappen om Unified Computing System Fabric Interconnect (FI) te onderzoeken of om een onverwachte herstart te voorkomen.
Op hoog niveau zouden de volgende problemen kunnen resulteren in een herstart van de FI
- Kernel ruimteproces neergestort ( alias Kernel-paniek )
- Kernel heeft geen geheugen meer ( Geen geheugen meer - OOM maakt een gebruikersproces kapot om geheugen op te eisen )
- Gebruikerspatroon verongelukt (bijvoorbeeld. - netstack, fcoe_mgr, callhome enz )
- FI-firmware probleem (zeldzaam scenario, voorbeeld - CSCuq46105) of defect hardwareonderdeel (zoals SSD gebruikt voor opslag)
Voorwaarden
Vereisten
Cisco raadt kennis van de volgende onderwerpen aan:
Cisco Unified Computing System (UCS) Manager
Cisco Unified Computing System (UCS) Manager-opdrachtregel (CLI)
Vereiste logbestanden
Als FI onverwacht herstart, verzamelt u de volgende logbestanden en uploadt u het naar de TAC-serviceaanvraag.
- Logbundel voor UCSM-technische ondersteuning
- Controleer of het kernvuilbestand rond de tijd van de herstart-gebeurtenis is aangemaakt.
U kunt controleren of er cores zijn die bestanden dumpen via CLI of GUI
UCS-FI # toepassingsgebied-bewaking
UCS-FI/controle #-toepassingssystemen
UCS-FI/bewaking/systemen # tonen details van de cores
- Als de FI is ingesteld om logbestanden naar syslog server te exporteren, verzamel dan logberichten van syslog server voor het apparaat dat zeven dagen geschiedenis levert voordat de tijdstempel opnieuw wordt opgestart.
- Kernel stapelspoor (als de herstart te wijten is aan paniek met de kern)
Logboeken analyseren voor eerste aanwijzingen
1) Controleer op rebooreme en tijdstempel van Nexus Operating System (NX-OS) " show versie " opdrachtoutput
2) Controleer "show logging nvram" opdrachtoutput voor logberichten voorafgaand aan rebootstempel
3) Controleer de logberichten die op de syslogserver zijn opgeslagen op extra aanwijzingen
4) Als de herstart is geactiveerd door een storing van het gebruikersruimte-proces, controleert u het kernbestand dat overeenkomt met de procesnaam en de reboottijdstempel.
6) Als het kern-paniek is, controleer dan op de uitvoer van de vennelstapel sporen in bestand met de naam "sw_kernel_trace_log"
Van UCSM 2.2.1b, is dit bestand inclusief UCSM met technische ondersteuningsbundel.
Verzamel voor UCSM versie eerder dan 2.2.1b uitvoer van de volgende opdrachten
connect nxos
show logging onboard kernel-trace | no-more
show logging onboard obfl-history | no-more
show logging onboard stack-trace | no-more
show logging onboard internal kernel | no-more
show logging onboard internal kernel-big | no-more
show logging onboard internal platform | no-more
show logging onboard internal reset-reason | no-more
7) " topout.log " bevat uitvoer van " top " opdracht elke twee seconden. Voordat u de computer opnieuw opstart, slaat UCSM oude bestanden op als /opt/sam_logs.tgz-bestand. Het kan informatie geven over het geheugen, het gebruik of de processen.
8) Als je berichten als Out of Memory (OOM) opmerkt, doodde je een proces en de proceskrach kon de FI opnieuw opstarten en werd geregistreerd als resetrede. In zulke scenario's is het zeer waarschijnlijk dat het proces het slachtoffer is van een geheugenstoornis en mogelijk niet de oorzaak is van een crash of geheugenlek.
Informatie over UCS-instellingen verzamelen
Het beantwoorden van de volgende vragen helpt de systeeminstellingen beter te begrijpen en het is status voordat u opnieuw start.
1) Is dit probleem al eerder voorgekomen?
2) Was er rond de herstart een specifieke gebruikersactiviteit?
3) Enige recente software/hardware/configuratie wijzigingen aangebracht in de FI?
4) Wordt Fi gecontroleerd door externe toepassingen (via SNMP, XML API )?
5) Zo ja, hoe vaak inroepen de FI voor gegevens? Welke informatie wordt door deze toepassing op gezette tijden opgevraagd? ( ex SNMP-vragen )
6) Is er al een verkeersstorm naar de FI-beheerpoort geweest?
7) Kan deze schaal worden ingesteld? ( Aantal chassis, blades, virtuele interfaces )
Suggesties voor proactief toezicht op FI
1) UCSM om bestanden naar syslig server te exporteren
2) Verzamel de uitvoer van "show processen" vanaf de plaatselijke regering met regelmatige tussenpozen om de trend in CPU en geheugen te bewaken
gebruik van processen. Dit is niet vereist als de FI al door externe toepassing wordt gecontroleerd.
Gerelateerde informatie
Cisco UCS Manager-configuratiegids