Introduction
Este documento descreve o significado de um bloco puncionado em um disco rígido. O também descreve como um bloco puncionado ocorre e as etapas de correção.
O que é um bloco puncionado?
Quando uma operação de leitura de unidades "Patrol" ou de reconstrução encontra um erro de mídia na unidade de origem, ela perfura um bloco na unidade de destino para impedir o uso dos dados com a paridade inválida. Qualquer operação de leitura subsequente no bloco perfurado é concluída, mas com um erro. Consequentemente, a punção de um bloco impede qualquer geração de paridade inválida posteriormente ao usar esse bloco.
Fonte: Guia do usuário do software MegaRAID® SAS de 12 Gb/s, Rev. F, agosto de 2014
Como os blocos puncionados acontecem?
No RAID5, os dados são distribuídos na forma de paridade em todos os discos membros. Nesse caso, se uma das unidades ficar com defeito, os dados podem ser reconstruídos calculando a paridade em toda a unidade. Há várias coisas que podem causar uma punção, mas normalmente ela começa com um RAID que tem uma única unidade com falha que também tem uma unidade com muitos erros médios ou um estado de Falha preditiva.
O link a seguir fornece um cenário muito bom em que explica como um storage pode ser perfurado:
http://www.theprojectbot.com/what-is-a-punctured-raid-array
Depois de lê-lo, você deve ter uma ideia clara de que quando um disco rígido é substituído sem verificar os outros discos, alguns blocos lógicos defeituosos ou erros de mídia foram realocados e, em seguida, qualquer um dos outros discos pode aparecer como apresentando falha.
Um bloco perfurado pode potencialmente ocorrer em várias unidades, com apenas uma unidade oficialmente "com falha". Isso pode ser replicado para discos de substituição, agravando ainda mais o problema.
Sintomas de bloqueio punidos
O servidor pode relatar várias falhas de disco rígido. Simplesmente substituir o disco rígido NÃO corrigirá o problema. Além disso, o desempenho de E/S pode ser reduzido.
Prova de um Bloco Puncionado
Os registros podem conter entradas semelhantes às linhas abaixo.
6:2014 Jul 27 00:36:06:BMC:storage:-: SLOT-5: Unexpected sense: PD 0c(e0x12/s5) Path 500000e11986c502, CDB: 28 00 0e 71 66 e7 00 00 19 00, Sense: 3/11/01
6:2014 Jul 27 00:36:06:BMC:storage:-: SLOT-5: Unexpected sense: PD 13(e0x12/s7) Path 50000395083063f6, CDB: 28 00 0e 71 66 eb 00 00 15 00, Sense: 3/11/14
Na saída acima, e0x12/s5 indica que ele está relacionado ao HDD5. O link a seguir descreve o significado do código de detecção (Sense: 11/03/14):
http://en.wikipedia.org/wiki/Key_Code_Qualifier
Portanto, esse sensor indica erros médios.
Os eventos a seguir também podem ser evitados nos registros:
1:2014 Jul 16 10:42:43:BMC:storage:-: SLOT-5: Unrecoverable medium error during recovery on PD 0c(e0x12/s5) at e7166e7
1:2014 Jul 16 10:42:43:BMC:storage:-: SLOT-5: Puncturing bad block on PD 0c(e0x12/s5) at e7166e7
1:2014 Jul 19 03:46:22:BMC:storage:-: SLOT-5: Consistency Check detected uncorrectable multiple medium errors (PD 13(e0x12/s7) at e7166d9 on (null))
Correção possível
Sempre que houver blocos perfurados, os backups de dados são altamente recomendados. Quando apresentada com as mensagens mencionadas acima, a inclinação pode ser procurar o disco rígido com falha real e substituí-lo. No entanto, há uma chance de vários blocos lógicos com defeito terem sido espalhados pelo storage. Embora os discos rígidos com falha ou com falha possam ter sido a causa, os blocos perfurados só serão resolvidos reconstruindo as unidades virtuais afetadas.
- Criar um backup de dados
- Apague a configuração da matriz RAID
- Criar um novo storage do zero
Note: Note: Ao criar o VD (Virtual Drive, Unidade virtual), selecione FULL/SLOW initialization (Inicialização completa/lenta) em vez de FAST.
- Reinstale o sistema operacional
- Restaure o backup de dados.
Note: A substituição dos discos rígidos NÃO corrigirá os blocos perfurados por si só. Se houver uma unidade com falha, ela deverá ser substituída, caso contrário, o RAID precisará ser reconstruído.
Evitar blocos perfurados
- Monitorar RAIDs e a integridade de suas unidades membros.
- Antes de substituir qualquer disco rígido, consulte os registros da controladora.
- Verifique se as Leituras de Patrulha e as Verificações de Consciência estão ativadas e em execução (Verifique se o bug CSCul22968).