Introdução
Este documento descreve como solucionar problemas comuns de falhas da Verificação de Integridade do Intersight para clusters Hyperflex.
Pré-requisitos
Requisitos
A Cisco recomenda que você tenha conhecimento destes tópicos:
- Noções básicas sobre Network Time Protocol (NTP) e Domain Name System (DNS).
- Compreensão básica da linha de comando do Linux.
- Noções básicas sobre o VMware ESXi.
- Compreensão básica do editor de texto VI.
- Operações de Cluster Hyperflex.
Componentes Utilizados
As informações neste documento são baseadas em:
Hyperflex Data Platform (HXDP) 5.0.(2a) e posterior
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Informações de Apoio
A Cisco Intersight oferece a capacidade de executar uma série de testes em um cluster Hyperflex para garantir que a integridade do cluster esteja em condição ideal para operações diárias e tarefas de manutenção.
A partir do HX 5.0(2a), o Hyperflex apresenta uma conta de usuário de diagnóstico com privilégios escalonados para solução de problemas na linha de comando do Hyperflex. Conecte-se ao Hyperflex Cluster Management IP (CMIP) usando SSH como um usuário administrativo e, em seguida, alterne para o usuário de diagnóstico.
HyperFlex StorageController 5.0(2d)
admin@192.168.202.30's password:
This is a Restricted shell.
Type '?' or 'help' to get the list of allowed commands.
hxshell:~$ su diag
Password:
____ __ _____ _ _ _ _____
| ___| / /_ _ | ____(_) __ _| |__ | |_ |_ _|_ _____
|___ \ _____ | '_ \ _| |_ | _| | |/ _` | '_ \| __| _____ | | \ \ /\ / / _ \
___) | |_____| | (_) | |_ _| | |___| | (_| | | | | |_ |_____| | | \ V V / (_) |
|____/ \___/ |_| |_____|_|\__, |_| |_|\__| |_| \_/\_/ \___/
|___/
Enter the output of above expression: 5
Valid captcha
diag#
Troubleshooting
Corrigir verificação de VIB do ESXi "Algumas das VIBs instaladas estão usando vmkAPIs preteridas"
Ao fazer o upgrade para o ESXi 7.0 e posterior, a Intersight garante que os hosts ESXi em um cluster Hyperflex não tenham drivers criados com dependências de versões mais antigas do vmkapi. A VMware fornece uma lista dos pacotes de instalação (VIBs) do vSphere afetados e descreve esse problema neste artigo: KB 78389
Faça login na Interface do Usuário (UI) da Web do Hyperflex Connect e navegue até Informações do Sistema. Clique em Nodes e selecione o nó Hyperflex (HX). Em seguida, clique em Enter HX Maintenance Mode.
Use um cliente SSH para se conectar ao endereço IP de gerenciamento do host ESXi. Em seguida, confirme os VIBs no host ESXi com este comando:
esxcli software vib list
Remova o VIB com este comando:
esxcli software vib remove -n driver_VIB_name
Reinicialize o host ESXi. Quando ele ficar online novamente, no HX Connect, selecione o nó HX e clique em Exit HX Maintenance Mode.
Aguarde até que o cluster HX se torne íntegro. Em seguida, execute as mesmas etapas para os outros nós no cluster.
Fix vMotion Enabled "VMotion is Disabled on the ESXi Host" (O VMotion está desativado no host ESXi)
Essa verificação garante que o vMotion esteja habilitado em todos os hosts ESXi no cluster HX. A partir do vCenter, cada host ESXi deve ter um switch virtual (vSwitch), bem como uma interface vmkernel para o vMotion.
Conecte-se ao Hyperflex Cluster Management IP (CMIP) usando SSH como um usuário administrativo e execute este comando:
hx_post_install
Selecione a opção 1para configurar o vMotion:
admin@SpringpathController:~$ hx_post_install
Select hx_post_install workflow-
1. New/Existing Cluster
2. Expanded Cluster (for non-edge clusters)
3. Generate Certificate
Note: Workflow No.3 is mandatory to have unique SSL certificate in the cluster. By Generating this certificate, it will replace your current certificate. If you're performing cluster expansion, then this option is not required.
Selection: 1
Logging in to controller HX-01-cmip.example.com
HX CVM admin password:
Getting ESX hosts from HX cluster...
vCenter URL: 192.168.202.35
Enter vCenter username (user@domain): administrator@vsphere.local
vCenter Password:
Found datacenter HX-Clusters
Found cluster HX-01
post_install to be run for the following hosts:
HX-01-esxi-01.example.com
HX-01-esxi-02.example.com
HX-01-esxi-03.example.com
Enter ESX root password:
Enter vSphere license key? (y/n) n
Enable HA/DRS on cluster? (y/n) y
Successfully completed configuring cluster HA.
Disable SSH warning? (y/n) y
Add vmotion interfaces? (y/n) y
Netmask for vMotion: 255.255.254.0
VLAN ID: (0-4096) 208
vMotion MTU is set to use jumbo frames (9000 bytes). Do you want to change to 1500 bytes? (y/n) y
vMotion IP for HX-01-esxi-01.example.com: 192.168.208.17
Adding vmotion-208 to HX-01-esxi-01.example.com
Adding vmkernel to HX-01-esxi-01.example.com
vMotion IP for HX-01-esxi-02.example.com: 192.168.208.18
Adding vmotion-208 to HX-01-esxi-02.example.com
Adding vmkernel to HX-01-esxi-02.example.com
vMotion IP for HX-01-esxi-03.example.com: 192.168.208.19
Adding vmotion-208 to HX-01-esxi-03.example.com
Adding vmkernel to HX-01-esxi-03.example.com
Observação: para clusters Edge implantados com o HX Installer, o script hx_post_install precisa ser executado a partir da CLI do HX Installer.
Corrigir verificação de conectividade do vCenter "Falha na verificação de conectividade do vCenter"
Conecte-se ao Hyperflex Cluster Management IP (CMIP) usando SSH como um usuário administrativo e alterne para o usuário de diagnóstico. Certifique-se de que o cluster HX esteja registrado no vCenter com este comando:
diag# hxcli vcenter info
Cluster Name : San_Jose
vCenter Datacenter Name : MX-HX
vCenter Datacenter ID : datacenter-3
vCenter Cluster Name : San_Jose
vCenter Cluster ID : domain-c8140
vCenter URL : 10.31.123.186
A URL do vCenter deve exibir o endereço IP ou o nome de domínio totalmente qualificado (FQDN) do servidor vCenter. Se ele não exibir as informações corretas, registre novamente o cluster HX com o vCenter com este comando:
diag# stcli cluster reregister --vcenter-datacenter MX-HX --vcenter-cluster San_Jose --vcenter-url 10.31.123.186 --vcenter-user administrator@vsphere.local
Reregister StorFS cluster with a new vCenter ...
Enter NEW vCenter Administrator password:
Cluster reregistration with new vCenter succeeded
Verifique se há conectividade entre HX CMIP e vCenter com estes comandos:
diag# nc -uvz 10.31.123.186 80
Connection to 10.31.123.186 80 port [udp/http] succeeded!
diag# nc -uvz 10.31.123.186 443
Connection to 10.31.123.186 443 port [udp/https] succeeded!
Corrigir Verificação de Status do Limpador "Falha na Verificação do Limpador"
Conecte-se ao CMIP Hyperflex usando SSH como um usuário administrativo e, em seguida, alterne para o usuário de diagnóstico. Execute este comando para identificar o nó em que o serviço de limpeza não está sendo executado:
diag# stcli cleaner info
{ 'type': 'node', 'id': '7e83a6b2-a227-844b-87fb-f6e78e6a59be', 'name': '172.16.1.6' }: ONLINE
{ 'type': 'node', 'id': '8c83099e-b1e0-6549-a279-33da70d09343', 'name': '172.16.1.8' }: ONLINE
{ 'type': 'node', 'id': 'a697a21f-9311-3745-95b4-5d418bdc4ae0', 'name': '172.16.1.7' }: OFFLINE
Nesse caso, 172.16.1.7 é o endereço IP da máquina virtual do controlador de armazenamento (SCVM) em que o limpador não está em execução. Conecte-se ao endereço IP de gerenciamento de cada SCVM no cluster usando SSH e, em seguida, procure o endereço IP de eth1 com este comando:
diag# ifconfig eth1
eth1 Link encap:Ethernet HWaddr 00:0c:29:38:2c:a7
inet addr:172.16.1.7 Bcast:172.16.255.255 Mask:255.255.0.0
UP BROADCAST RUNNING MULTICAST MTU:9000 Metric:1
RX packets:1036633674 errors:0 dropped:1881 overruns:0 frame:0
TX packets:983950879 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:723797691421 (723.7 GB) TX bytes:698522491473 (698.5 GB)
Inicie o serviço de limpeza no nó afetado com este comando:
diag# sysmtool --ns cleaner --cmd start
Corrigir status do serviço NTP "Status do serviço NTPD está INOPERANTE"
Conecte-se ao CMIP HX usando SSH como um usuário administrativo e, em seguida, alterne para o usuário de diagnóstico. Execute este comando para confirmar se o serviço NTP está parado.
diag# service ntp status
* NTP server is not running
Se o serviço NTP não estiver em execução, execute este comando para iniciar o serviço NTP.
diag# priv service ntp start
* Starting NTP server
...done.
Corrigir acessibilidade do servidor NTP "Falha na verificação de acessibilidade dos servidores NTP"
Conecte-se ao CMIP HX usando SSH como um usuário administrativo e, em seguida, alterne para o usuário de diagnóstico. Verifique se o cluster HX tem servidores NTP acessíveis configurados. Execute este comando para exibir a configuração do NTP no cluster.
diag# stcli services ntp show
10.31.123.226
Verifique se há conectividade de rede entre cada SCVM no cluster HX e o servidor NTP na porta 123.
diag# nc -uvz 10.31.123.226 123
Connection to 10.31.123.226 123 port [udp/ntp] succeeded!
Caso o servidor NTP configurado no cluster não esteja mais em uso, você pode configurar um servidor NTP diferente no cluster.
stcli services ntp set NTP-IP-Address
Aviso: o conjunto ntp de serviços stcli substitui a configuração NTP atual no cluster.
Corrigir a Acessibilidade do Servidor DNS "Falha na Verificação de Acessibilidade DNS"
Conecte-se ao CMIP HX usando SSH como um usuário administrativo e, em seguida, alterne para o usuário de diagnóstico. Verifique se o cluster HX tem servidores DNS acessíveis configurados. Execute este comando para mostrar a configuração DNS no cluster.
diag# stcli services dns show
10.31.123.226
Verifique se há conectividade de rede entre cada SCVM no cluster HX e o servidor DNS na porta 53.
diag# nc -uvz 10.31.123.226 53
Connection to 10.31.123.226 53 port [udp/domain] succeeded!
Caso o servidor DNS configurado no cluster não esteja mais em uso, você pode configurar um servidor DNS diferente no cluster.
stcli services dns set DNS-IP-Adrress
Aviso: o conjunto dns de serviços stcli substitui a configuração DNS atual no cluster.
Corrigir Versão da VM do Controlador "O Valor da Versão da VM do Controlador está Ausente no Arquivo de Configurações no Host ESXi"
Essa verificação garante que cada SCVM inclua guestinfo.stctlvm.version = "3.0.6-3" no arquivo de configuração.
Faça login no HX Connect e verifique se o cluster está íntegro.
Conecte-se a cada host ESXi no cluster usando SSH com a conta raiz. Em seguida, execute este comando
[root@San-Jose-Server-1:~] grep guestinfo /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx
guestinfo.stctlvm.version = "3.0.6-3"
guestinfo.stctlvm.configrdm = "False"
guestinfo.stctlvm.hardware.model = "HXAF240C-M4SX"
guestinfo.stctlvm.role = "storage"
Cuidado: o nome do armazenamento de dados e o nome do SCVM podem ser diferentes no cluster. Você pode digitar Spring e, em seguida, pressionar a tecla Tab para preencher automaticamente o nome do armazenamento de dados. Para o nome SCVM, você pode digitar stCtl e pressionar a tecla Tab para completar automaticamente o nome SCVM.
Se o arquivo de configuração do SCVM não incluir guestinfo.stctlvm.version = "3.0.6-3", faça login no vCenter e selecione o SCVM. Clique em Actions, navegue para Power e selecione Shut Down Guest OS para desligar o SCVM normalmente.
Na CLI (Command Line Interface, interface de linha de comando) do ESXi, crie um backup do arquivo de configuração do SCVM com este comando:
cp /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx.bak
Em seguida, execute este comando para abrir o arquivo de configuração do SCVM:
[root@San-Jose-Server-1:~] vi /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx
Pressione a tecla I para editar o arquivo, navegue até o final do arquivo e adicione esta linha:
guestinfo.stctlvm.version = "3.0.6-3"
Pressione a tecla ESC e digite :wq para salvar as alterações.
Identifique o ID da máquina virtual (VMID) do SCVM com o comando vim-cmd vmsvc/getallvms e recarregue o arquivo de configuração do SCVM:
[root@San-Jose-Server-1:~] vim-cmd vmsvc/getallvms
Vmid Name File Guest OS Version Annotation
1 stCtlVM-FCH2119V1NH [SpringpathDS-FCH2119V1NH] stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx ubuntu64Guest vmx-15
[root@San-Jose-Server-1:~] vim-cmd vmsvc/reload 1
Recarregue e ligue o SCVM com estes comandos:
[root@San-Jose-Server-1:~] vim-cmd vmsvc/reload 1
[root@San-Jose-Server-1:~] vim-cmd vmsvc/power.on 1
Aviso: neste exemplo, o VMID é 1.
Você deve aguardar até que o cluster HX esteja íntegro novamente antes de passar para o próximo SCVM.
Repita o mesmo procedimento nos SCVMs afetados, um de cada vez.
Finalmente, faça login em cada SCVM usando SSH e alterne para diagnosticar a conta do usuário. Reinicie o stMgr um nó por vez com este comando:
diag# priv restart stMgr
stMgr start/running, process 22030
Antes de passar para o próximo SCVM, verifique se o stMgr está totalmente operacional com este comando:
diag# stcli about
Waiting for stmgr management server on port 9333 to get ready . .
productVersion: 5.0.2d-42558
instanceUuid: EXAMPLE
serialNumber: EXAMPLE,EXAMPLE,EXAMPLE
locale: English (United States)
apiVersion: 0.1
name: HyperFlex StorageController
fullName: HyperFlex StorageController 5.0.2d
serviceType: stMgr
build: 5.0.2d-42558 (internal)
modelNumber: HXAF240C-M4SX
displayVersion: 5.0(2d)
Informações Relacionadas
Cuidado: neste exemplo, o VMID é 1.