Introduction
Este artigo é uma extensão do documento "Nexus 7000 Supervisor 2/2E Compact Flash Failure Recovery" que aborda todos os possíveis cenários de falha. Uma possibilidade em que a ferramenta de recuperação flash não é executada, este documento pode ser útil. É recomendável ter acesso de console ao dispositivo para executar as alterações. Além disso, é altamente recomendável não fazer nenhuma alteração no kernel Linux, que não é mencionado no documento, pois isso pode ter impacto nas operações do switch. A supervisão do Cisco TAC é aconselhável.
Background
Conforme explicado no outro documento, cada supervisor N7K 2/2E é equipado com 2 dispositivos flash eUSB na configuração RAID1, um primário e um espelho. Juntos, eles fornecem repositórios não voláteis para imagens de inicialização, configuração de inicialização e dados de aplicativos persistentes. Em uma situação em que o Raid falha para um supervisor no chassi, executamos a ferramenta de recuperação flash para corrigir o mesmo. Em quase todos os casos, reinicializamos/falhamos no supervisor, se a ferramenta de recuperação flash não funcionar. Há uma possibilidade de corrigir isso sem uma recarga/failover em determinado cenário.
Prerequisites
Requirements
A Cisco recomenda que você tenha conhecimento dos métodos de recuperação de disco do Cisco Nexus OS, armazenamento ou flash e depuração no nível do Linux.
Componentes Utilizados
Switches Nexus 7000 Series
Sintoma
A falha de Raid é observada em um supervisor e, ao tentar recuperar a memória flash para os supervisores afetados, o seguinte erro é exibido ao executar a ferramenta de recuperação flash,
Os switches seriam executados no estado de falha de Raid com código de erro - 0xe1
ERROR: Cannot perform recovery. /dev/sdb has incorrect partition info.
ERROR: Disk /dev/sdb needs to be manually inspected for errors.
INFO: No recovery was attempted on module 5. All flashes left intact.
INFO: A detailed copy of the this log was saved as volatile:flash_repair_log_mod5.tgz.
Solução
Carregue o plug-in de depuração no switch para fazer login no shell linux,
Switch# load bootflash:n7000-s2-debug-sh.6.1.4a.gbin
Tenha cuidado ao executar os comandos aqui.
Quando obtivermos o prompt do linux, procure a partição afetada de acordo com a mensagem de erro. No nosso caso, é /dev/sdb. Podem ser outras partições também.
Linux(debug)# ls -l /dev/sd?
brw-r----- 1 root root 8, 0 Aug 28 2015 sda
brw-rw-r-- 1 root disk 8, 32 Dec 18 2013 sdc
brw-rw-r-- 1 root disk 8, 48 Dec 18 2013 sdd
brw-rw-r-- 1 root disk 8, 64 Dec 18 2013 sde
brw-rw-r-- 1 root disk 8, 80 Dec 18 2013 sdf
brw-rw-r-- 1 root disk 8, 96 Dec 18 2013 sdg
brw-rw-r-- 1 root disk 8, 112 Dec 18 2013 sdh
brw-rw-r-- 1 root disk 8, 128 Dec 18 2013 sdi
brw-rw-r-- 1 root disk 8, 144 Dec 18 2013 sdj
brw-rw-r-- 1 root disk 8, 160 Dec 18 2013 sdk
brw-rw-r-- 1 root disk 8, 176 Dec 18 2013 sdl
brw-rw-r-- 1 root disk 8, 192 Dec 18 2013 sdm
A partição está ausente, levando a um erro, ao executar a ferramenta de recuperação. Crie a partição ausente manualmente, com a mesma permissão de outros blocos.
Linux(debug)# mknod -m 664 /dev/sdb b 8 16
Agora, podemos ver a partição sdb em /dev,
Linux(debug)# ls -l /dev/sd?
brw-r----- 1 root root 8, 0 Aug 28 2015 sda
brw-rw-r-- 1 root root 8, 16 May 26 07:31 sdb
brw-rw-r-- 1 root disk 8, 32 Dec 18 2013 sdc
brw-rw-r-- 1 root disk 8, 48 Dec 18 2013 sdd
brw-rw-r-- 1 root disk 8, 64 Dec 18 2013 sde
brw-rw-r-- 1 root disk 8, 80 Dec 18 2013 sdf
brw-rw-r-- 1 root disk 8, 96 Dec 18 2013 sdg
brw-rw-r-- 1 root disk 8, 112 Dec 18 2013 sdh
brw-rw-r-- 1 root disk 8, 128 Dec 18 2013 sdi
brw-rw-r-- 1 root disk 8, 144 Dec 18 2013 sdj
brw-rw-r-- 1 root disk 8, 160 Dec 18 2013 sdk
brw-rw-r-- 1 root disk 8, 176 Dec 18 2013 sdl
brw-rw-r-- 1 root disk 8, 192 Dec 18 2013 sdm
Saia do shell do linux e execute a ferramenta de recuperação flash novamente.
Desta vez sem nenhuma mensagem de erro e a falha de Raid na memória flash primária foi recuperada (0xf0). Confirmado o mesmo usando o comando,
"slot x show system internal raid | i i cmos|block | head line 5"
Ele deve ser executado sem esses erros e deve ser capaz de recuperar o supervisor afetado do estado de falha de Raid. Caso a ferramenta de recuperação continue a falhar na execução, isso pode ser devido a outro motivo ou a uma corrupção real na partição, e talvez tenhamos que recorrer a uma recarga/failover.
Informações Relacionadas