Problemen oplossen Hyperflex Storage NFS alle paden naar beneden (APD)-probleem

Downloadopties

PDF (379.3 KB)
Met Adobe Reader op diverse apparaten bekijken
ePub (253.9 KB)
Bekijken in diverse apps op iPhone, iPad, Android, Sony Reader of Windows Phone
Mobi (Kindle) (151.5 KB)
Op Kindle-apparaat of via Kindle-app op meerdere apparaten bekijken

Bijgewerkt:13 juni 2019

Document-id:214477

Inclusief taalgebruik

De documentatie van dit product is waar mogelijk geschreven met inclusief taalgebruik. Inclusief taalgebruik wordt in deze documentatie gedefinieerd als taal die geen discriminatie op basis van leeftijd, handicap, gender, etniciteit, seksuele oriëntatie, sociaaleconomische status of combinaties hiervan weerspiegelt. In deze documentatie kunnen uitzonderingen voorkomen vanwege bewoordingen die in de gebruikersinterfaces van de productsoftware zijn gecodeerd, die op het taalgebruik in de RFP-documentatie zijn gebaseerd of die worden gebruikt in een product van een externe partij waarnaar wordt verwezen. Lees meer over hoe Cisco gebruikmaakt van inclusief taalgebruik.

Over deze vertaling

Cisco heeft dit document vertaald via een combinatie van machine- en menselijke technologie om onze gebruikers wereldwijd ondersteuningscontent te bieden in hun eigen taal. Houd er rekening mee dat zelfs de beste machinevertaling niet net zo nauwkeurig is als die van een professionele vertaler. Cisco Systems, Inc. is niet aansprakelijk voor de nauwkeurigheid van deze vertalingen en raadt aan altijd het oorspronkelijke Engelstalige document (link) te raadplegen.

Inhoud

Inleiding

Hoe worden HX Datastores op ESXI gezet?

Alle paden omlaag

Beschrijving van probleem

Werkstroom voor probleemoplossing

Controles in vCenter Server:

Controles in alle StCtlVMs:

StCtlVM: StCtlVM van een aangetaste ESXi-host

Controles in ESXi-host:

Inleiding

Dit document geeft u snel begrip en probleemoplossing stappen die kunnen worden uitgevoerd om de bron van het probleem te beoordelen als u "NFS alle paden onderaan"-foutmelding in vCenter ziet waarin Hyperflex-cluster is geïntegreerd.

Hoe worden HX Datastores op ESXI gezet?

Hyperflex Datastores worden als NFS-montage op de ESXI-hosts gemonteerd, om een NFS-datastore te kunnen installeren, hebben we de NFS Server IP nodig, wat in ons geval de eth1:0 virtuele drijvende interface is.
Hyperflex-cluster benut het gebruik van virtuele zwevende IP zowel voor het beheer (eth0:mtip) als voor opslaggegevens (eth1:0) waarop elke IP wordt toegewezen aan één specifieke opslagcontroller VM (StCtlVM). Merk op dat ze in verschillende StCtlVM's kunnen eindigen.
Het belang hiervan is dat de IP-opslaggegevens van het cluster (eth1:0) dezelfde zijn die worden gebruikt om de datastore(en) te monteren die in het Hyperflex-cluster is gecreëerd. Het is dus van essentieel belang dat het toegewezen en bereikbaar is vanaf alle knooppunten van de cluster.
Als de StCtlVM, die momenteel de virtuele IP van eth1:0 bezit, niet functioneert, moet zij "migreren" naar een andere beschikbare StCtlVM die op dezelfde manier werkt als een FHRP (First Hop Redundancy Protocol).

Alle paden omlaag

APD betekent dat de host de opslag niet kan bereiken en dat er geen PDL-SCSI (Permanent Apparaatverlies) is dat uit de opslagarray wordt teruggegeven.
Aangezien de bank niet weet of het verlies tijdelijk of niet is, zal zij blijven proberen om communicatie voor meer 140s standaard (timeout) + 3min (Vertraging voor failover) in te stellen dat de ESXi Host elk niet-virtueel machine I/O-verkeer dat naar het opslagapparaat wordt verzonden, begint te begeven.
Raadpleeg voor meer informatie over APD in vSphere 6.x-omgeving een artikel in Vmware KB over permanent apparaatverlies (PDL) en All-Paths-Down (APD) in vSphere 5.x en 6.x
Op de afbeelding staat elke intermitterende fase:

Er verschijnt een typische foutmelding in vCenter.

Beschrijving van probleem

Zodra u APD-waarschuwingen op uw hosts ziet, dient u de volgende informatie te verkrijgen om de probleembeschrijving beter te begrijpen:

Als één/meerdere/alle gastheren beïnvloedde en als sommige van die specifieke gastheren beïnvloedden
Indien wijzigingen eerder zijn uitgevoerd (configuratie/upgrade/enz.)
De tijdstempel op het moment dat het probleem voor het eerst werd waargenomen en of het probleem zich opnieuw voordoet

Werkstroom voor probleemoplossing

Om een APD voor probleemoplossing te kunnen oplossen moeten we 3 componenten bekijken - vCenter, SCVM en ESXi host.

Deze stappen zijn een suggereerde werkschema om de bron van het waargenomen Alle Paden Down symptoom vast te stellen of te vernauwen. Let erop dat deze opdracht niet nauwkeurig hoeft te worden gevolgd en u kunt deze aanpassen aan de hand van de specifieke symptomen die in de omgeving van de klant zijn waargenomen.

Controles in vCenter Server:

Connect met vCenter Server (VCS) en navigeer naar een getroffen host

Verwante objecten -> Virtuele machines en bevestig dat StCtlVM actief is
Gerelateerde objecten -> Datastores en bevestig of NFS-datastores "ontoegankelijk" tonen. Als datastores toegankelijk lijken te zijn en status kunt u proberen op het tabblad Summary om de APD-gebeurtenis "Reset to Green" te zetten en later controleren of de melding later terugverschijnt
Monitor -> Problemen en monitor -> Evenementen dienen informatie te bevatten over het moment dat de APD voor het eerst wordt gespot.

Controles in alle StCtlVMs:

Aansluiten op alle StCtlVM’s en de volgende items controleren, kunt u gebruiken MobaXterm in Cisco IOS®-software.

Controleer of alle StCtlVMs dezelfde tijd hebben met gebruik van date of ntpq-p. Een tijdscheefheid op StCtlVM kan leiden tot problemen met een zoökeeper database sync en daarom is het van het grootste belang om deze sync te hebben voor alle StCtlVM's.
- De striktere gebarentaal informatie van de ntp server geeft aan dat de NTP van uw SCVM is gesynchroniseerd.
```
root@SpringpathControllerPZTMTRSH7K:~# date
Tue May 28 12:47:27 PDT 2019

root@SpringpathControllerPZTMTRSH7K:~# ntpq -p -4
remote refid st t when poll reach delay offset jitter
==============================================================================
*abcdefghij .GNSS. 1 u 429 1024 377 225.813 -1.436 0.176
```

Als APD tijdens een upgrade is opgetreden kunt u overwegen om te controleren welke StCtlVMs niet volledig zijn bijgewerkt en met name welke volledig is mislukt. Het is mogelijk dat het de firma was die voorheen de eth1:0 vasthield

Gebruik dpkg -l | grep -i springpath om de StCtlVM's te identificeren die niet volledig zijn aangepast, aangezien zij gemengde verzetpakketten hebben.

root@SpringpathControllerPZTMTRSH7K:~# dpkg -l | grep -i springpath
ii storfs-appliance 4.0.1a-33028            amd64 Springpath Appliance
ii storfs-asup 4.0.1a-33028                 amd64 Springpath ASUP and SCH
ii storfs-core 4.0.1a-33028                 amd64 Springpath Distributed Filesystem
ii storfs-fw 4.0.1a-33028                   amd64 Springpath Appliance
ii storfs-mgmt 4.0.1a-33028                 amd64 Springpath Management Software
ii storfs-mgmt-cli 4.0.1a-33028             amd64 Springpath Management Software
ii storfs-mgmt-hypervcli 4.0.1a-33028       amd64 Springpath Management Software
ii storfs-mgmt-ui 4.0.1a-33028              amd64 Springpath Management UI Module
ii storfs-mgmt-vcplugin 4.0.1a-33028        amd64 Springpath Management UI and vCenter Plugin
ii storfs-misc 4.0.1a-33028                 amd64 Springpath Configuration
ii storfs-pam 4.0.1a-33028                  amd64 Springpath PAM related modules
ii storfs-replication-services 4.0.1a-33028 amd64 Springpath Replication Services
ii storfs-restapi 4.0.1a-33028              amd64 Springpath REST Api's
ii storfs-robo 4.0.1a-33028                 amd64 Springpath Appliance
ii storfs-support 4.0.1a-33028              amd64 Springpath Support
ii storfs-translations 4.0.1a-33028         amd64 Springpath Translations

Controleer of alle relevante services actief zijn op service_status.sh:

Een aantal van de belangrijkste services zijn Springpath File System (opslagsystemen), SCVM Client (scvmclient), System Management Service (stMgr) of Cluster IP Monitor (CIP-monitor).

root@SpringpathController5L0GTCR8SA:~# service_status.sh
Springpath File System                 ... Running
SCVM Client                            ... Running
System Management Service              ... Running
HyperFlex Connect Server               ... Running
HyperFlex Platform Agnostic Service    ... Running
HyperFlex HyperV Service               ... Not Running
HyperFlex Connect WebSocket Server     ... Running
Platform Service                       ... Running
Replication Services                   ... Running
Data Service                           ... Running
Cluster IP Monitor                     ... Running
Replication Cluster IP Monitor         ... Running
Single Sign On Manager                 ... Running
Stats Cache Service                    ... Running
Stats Aggregator Service               ... Running
Stats Listener Service                 ... Running
Cluster Manager Service                ... Running
Self Encrypting Drives Service         ... Not Running
Event Listener Service                 ... Running
HX Device Connector                    ... Running
Web Server                             ... Running
Reverse Proxy Server                   ... Running
Job Scheduler                          ... Running
DNS and Name Server Service            ... Running
Stats Web Server                       ... Running

Als een van deze of andere relevante service niet op uw computer is gestart, start de service met <serviceName>bijvoorbeeld:start opslagapparaten

U kunt het Service_status.sh script gebruiken om de servicenamen te krijgen. Voer een kop-n25 /bin/service_status.sh uit en identificeer de echte servicenaam.

root@SpringpathController5L0GTCR8SA:~# head -n25 /bin/service_status.sh
#!/bin/bash
declare -a upstart_services=("Springpath File System:storfs"\
                             "SCVM Client:scvmclient"\
                             "System Management Service:stMgr"\
                             "HyperFlex Connect Server:hxmanager"\
                             "HyperFlex Platform Agnostic Service:hxSvcMgr"\
                             "HyperFlex HyperV Service:hxHyperVSvcMgr"\
                             "HyperFlex Connect WebSocket Server:zkupdates"\
                             "Platform Service:stNodeMgr"\
                             "Replication Services:replsvc"\
                             "Data Service:stDataSvcMgr"\
                             "Cluster IP Monitor:cip-monitor"\
                             "Replication Cluster IP Monitor:repl-cip-monitor"\
                             "Single Sign On Manager:stSSOMgr"\
                             "Stats Cache Service:carbon-cache"\
                             "Stats Aggregator Service:carbon-aggregator"\
                             "Stats Listener Service:statsd"\
                             "Cluster Manager Service:exhibitor"\
                             "Self Encrypting Drives Service:sedsvc"\
                             "Event Listener Service:storfsevents"\
                             "HX Device Connector:hx_device_connector");
declare -a other_services=("Web Server:tomcat8"\
                           "Reverse Proxy Server:nginx"\
                           "Job Scheduler:cron"\
                           "DNS and Name Server Service:resolvconf");

Identificeer welke StCtlVM de storage cluster IP (eth1:0) bevat met behulp van iffig -a

Als geen StCtlVM die IP bevat, kunnen de opslaglocaties niet op één of meer knooppunten actief zijn.

root@help:~# ifconfig
eth0:mgmtip Link encap:Ethernet HWaddr 00:50:56:8b:4c:90
inet addr:10.197.252.83 Bcast:10.197.252.95 Mask:255.255.255.224
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

Controleer of StCtlVM in contact is met CRMaster en of zoökeeper service operationeel is

echo-srvr | nc localhost 2181 en controleer of de modus Leader, Follower of Standalone is en of de verbindingen > 0

root@help:~# echo srvr | nc localhost 2181
Zookeeper version: 3.4.12-d708c3f034468a4da767791110332281e04cf6af, built on 11/19/2018 21:16 GMT
Latency min/avg/max: 0/0/137
Received: 229740587
Sent: 229758548
Connections: 13
Outstanding: 0
Zxid: 0x140000526c
Mode: leader
Node count: 3577

status van of ps -ef | grip-i exposant

root@help:~# service exhibitor status
exhibitor start/running, process 12519
root@help:~# ps -ef | grep -i exhibitor
root 9765 9458 0 13:19 pts/14 00:00:00 grep --color=auto -i exhibitor
root 12519 1 0 May19 ? 00:05:49 exhibitor

Als er een fout of geen service wordt uitgevoerd, kunt u de onderstaande stammen controleren en proberen de dierentuin-service te starten
- /var/log/springpath/exhibitor.log en /var/log/springpath/stMgr.log
- exposant start dierentuin

Controleer of VC van alle StCtlVMs bereikbaar is

stcli-cluster info | grep -i "url" om de gebruikte URL weer te geven die FQDN of IP van VC bevat. Controleer de connectiviteit aan VC met ping <VC>

root@help:~# stcli cluster info | grep -i "url"
vCenterUrl: https://10.197.252.101
vCenterURL: 10.197.252.101
root@help:~# ping 10.197.252.101
PING 10.197.252.101 (10.197.252.101) 56(84) bytes of data.
64 bytes from 10.197.252.101: icmp_seq=1 ttl=64 time=0.435 ms

Bevestig of DNS bereikbaar is in het geval van cluster met FQDN
- stcli services dns tonen aan dat de DNS-geconfigureerde servers op StCtlVM moeten worden vermeld. Test connectiviteit en resolutie op DNS-servers met ping <DNS_IP>en host <FQDN> <DNS_IP>
```
root@help:~# stcli services dns show
1.1.128.140
root@help:~# ping 1.1.128.140
PING 1.1.128.140 (1.1.128.140) 56(84) bytes of data.
64 bytes from 1.1.128.140: icmp_seq=1 ttl=244 time=1.82 ms
```
Controleer of alle StCtlVM's dezelfde hoeveelheid ingangen hebben: iptafels -L | wc -l. Als ze niet overeenkomen, opent u een TAC-case.
- ```
root@SpringpathControllerI51U7U6QZX:~# iptables -L | wc -l
48
```

Wat zijn de huidige clusterstatus en gezondheid

stcli-cluster info | minder of stcli cluster info | grep -i "active\|state\|niet beschikbaar" indien getracht wordt te vinden welke specifieke knooppunten met opslag niet beschikbaar zijn.

root@SpringpathControllerI51U7U6QZX:~# stcli cluster info | grep -i "active\|state\|unavailable"
locale: English (United States)
state: online
upgradeState: ok
healthState: healthy
state: online
state: 1
activeNodes: 3
state: online

stcli-cluster opslag-samenvatting —details om de opslagclustergegevens te verkrijgen

root@SpringpathControllerI51U7U6QZX:~# stcli cluster storage-summary --detail
address: 10.197.252.106
name: HX-Demo
state: online
uptime: 185 days 12 hours 48 minutes 42 seconds
activeNodes: 3 of 3
compressionSavings: 85.45%
deduplicationSavings: 0.0%
freeCapacity: 4.9T
healingInfo:
inProgress: False
resiliencyDetails:
current ensemble size:3
# of caching failures before cluster shuts down:3
minimum cache copies remaining:3
minimum data copies available for some user data:3
minimum metadata copies available for cluster metadata:3
# of unavailable nodes:0
# of nodes failure tolerable for cluster to be available:1
health state reason:storage cluster is healthy.
# of node failures before cluster shuts down:3
# of node failures before cluster goes into readonly:3
# of persistent devices failures tolerable for cluster to be available:2
# of node failures before cluster goes to enospace warn trying to move the existing data:na
# of persistent devices failures before cluster shuts down:3
# of persistent devices failures before cluster goes into readonly:3
# of caching failures before cluster goes into readonly:na
# of caching devices failures tolerable for cluster to be available:2
resiliencyInfo:
messages:
Storage cluster is healthy.
state: 1
nodeFailuresTolerable: 1
cachingDeviceFailuresTolerable: 2
persistentDeviceFailuresTolerable: 2
zoneResInfoList: None
spaceStatus: normal
totalCapacity: 5.0T
totalSavings: 85.45%
usedCapacity: 85.3G
zkHealth: online
clusterAccessPolicy: lenient
dataReplicationCompliance: compliant
dataReplicationFactor: 3

Welke datastores zijn gemonteerd en beschikbaar

root@bsv-hxaf220m5-sc-4-3:~# stcli datastore list
----------------------------------------
virtDatastore:
    status:
        EntityRef(idtype=None, confignum=None, type=6, id='235ea35f-6c85-9448-bec7-06f03b5adf16', name='bsv-hxaf220m5-hv-4-3.cisco.com'):
            accessible: True
            mounted: True
        EntityRef(idtype=None, confignum=None, type=6, id='d124203c-3d9a-ba40-a229-4dffbe96ae13', name='bsv-hxaf220m5-hv-4-2.cisco.com'):
            accessible: True
            mounted: True
        EntityRef(idtype=None, confignum=None, type=6, id='e85f1980-b3c7-a440-9f1e-20d7a1110ae6', name='bsv-hxaf220m5-hv-4-1.cisco.com'):
            accessible: True
            mounted: True

Heeft stCLI-opdrachten te lang geduurd of falen, dan kunt u de volgende sysmaakopdrachten proberen (gebruik niet als stcli werkt)
1. sysmtool —ns cluster —cmd info
2. sysmtool —ns-cluster —cmd-gezondheidsdetails
3. sysmtool —ns datastore —cmd-lijst

StCtlVM: StCtlVM van een aangetaste ESXi-host

Aansluiten op de StCtlVM van de aangedane ESXi-host

Controleer de connectiviteit met de IP-opslagcluster (eth1:0) en met andere servers op het opslagnetwerk (eth1 op StCtlVMs)
- Stcli-clusterinformatie uitvoeren | grep -i -B 1 "stctl\|hypersupervisor" om alle ESXi Management IP, StCtlVM eth0 (Mgmt) en StCtlVM eth1 (opslaggegevens) die respectievelijk aan de cluster deelnemen, te identificeren
- Test de connectiviteit ping -I eth1 [-M do-s 8972] <target IP-adres>, Jumbo-frames test tussen ESXI VMK1 en SCVM eth1.
Als problemen nog niet zijn gesignaleerd, kunt u de volgende weblogs bekijken
- /var/log/springpath/debug-storfs.log
  - Controleer of er zich paniek, fouten of kritieke gebeurtenissen voordoen tussen "segmentatie\|kritisch\|paniek" debug-storfs.log
- /var/log/springpath/stmgr.log
- Controleer of uit het geheugenprobleem vet - i "oom\|out van machine" /var/log/kern.log
Uiteindelijk kunt u proberen om de StCtlVM van het knooppunt dat de kwestie nog ervaart, opnieuw op te starten en na te gaan of het probleem blijft bestaan.

Controles in ESXi-host:

Aansluiten op een aangetaste ESXi-host via SSH en de volgende handelingen uitvoeren:

esxcli - lijst van opslagnfs ofEsxcfg-nas-l om de momenteel gemonteerde NFS-datastores op te noemen en of ze toegankelijk zijn

[root@bsv-hx220m5-hv-4-3:~] esxcli storage nfs list
Volume Name  Host                                     Share                 Accessible  Mounted  Read-Only   isPE  Hardware Acceleration
-----------  ---------------------------------------  --------------------  ----------  -------  ---------  -----  ---------------------
test         8352040391320713352-8294044827248719091  192.168.4.1:test            true     true      false  false  Supported
sradzevi     8352040391320713352-8294044827248719091  192.168.4.1:sradzevi        true     true      false  false  Supported
[root@bsv-hx220m5-hv-4-3:~] esxcfg-nas -l
test is 192.168.4.1:test from 8352040391320713352-8294044827248719091 mounted available
sradzevi is 192.168.4.1:sradzevi from 8352040391320713352-8294044827248719091 mounted available

U kunt ook bevestigen vanaf /etc/vmware/esx.conf om de consistentie in ESXi-configuratie op de NFS gemonteerde datastores te verifiëren, met behulp van commando cat /etc/vmware/esx.conf | grep I nas

Controleer /var/log/vmkernel.log en kijk bijvoorbeeld naar de mislukte staat, stel problemen of fout in rond de tijdstempel die in vorige stappen is geïdentificeerd
Controleer de status van IOVisor/NFS Proxy/SCVMClient
- Controleer of er service op ESXi wordt uitgevoerd met behulp van opdracht /etc/init.d/scvmclient-status
  - [Optioneel] U kunt controleren of er openstaande verbindingen zijn met behulp van de IP-verbindingslijst van het netwerk | grep -i "proto\|scvmclient"
- Controleer of SCVMClient VIB dezelfde versie is als uw HX-cluster en lijst met Esxcli-software | grep-i lente
  - ```
  [root@bsv-hx220m5-hv-4-3:~] esxcli software vib list | grep -i spring
  scvmclient                     3.5.1a-31118                         Springpath          VMwareAccepted    2018-12-13
  stHypervisorSvc                3.5.1a-31118                         Springpath          VMwareAccepted    2018-12-06
  vmware-esx-STFSNasPlugin       1.0.1-21                             Springpath          VMwareAccepted    2018-11-16
```
- Controleer /var/log/scvmclient.log om te zien of er fouten aanwezig zijn, namelijk "niet in staat om clustermap te verkrijgen"
- U kunt de SCVMClient-service indien nodig opnieuw opstarten via etc/init.d/SCM-systeemvernieuwing
Controleer de netwerkconnectiviteit met andere ESXi-hosts op vmk1-netwerk, in het bijzonder met betrekking tot de opslagcluster IP eth1:0
- esxcfg-vmknic -l om informatie te verkrijgen over de vmk-details, bijvoorbeeld IP, masker en MTU
- vmkping-I vmk1 [-v-s 8972] -d <target-IP-adres> naarbest connectiviteit [optioneel met jumboframes] tussen ESXi-hosts op een datanetwerk van de controller
ESXCLI-hardwareplatform krijgt server-SN die wordt gebruikt op naam van de StCtlVm en kan u helpen snel te identificeren op welke host een specifieke StCtlVM wordt uitgevoerd.

Bijgedragen door Cisco-engineers

Nuno Bras
TECHNISCHE RAADPLEGINGSMENTEUR
Himanshu Sardana
TECHNISCHE RAADPLEGINGSMENTEUR
Komal Panzade
TECHNISCHE RAADPLEGINGSMENTEUR

Was dit document nuttig?

Feedback

Contact Cisco

Een ondersteuningscase openen
(Vereist een Cisco-servicecontract)

Problemen oplossen Hyperflex Storage NFS alle paden naar beneden (APD)-probleem

Downloadopties

Inclusief taalgebruik

Over deze vertaling

Inhoud

Inleiding

Hoe worden HX Datastores op ESXI gezet?

Alle paden omlaag

Beschrijving van probleem

Werkstroom voor probleemoplossing

Controles in vCenter Server:

Controles in alle StCtlVMs:

StCtlVM: StCtlVM van een aangetaste ESXi-host

Controles in ESXi-host:

Bijgedragen door Cisco-engineers

Was dit document nuttig?

Contact Cisco

Dit document is van toepassing op deze producten