Risoluzione dei problemi, gestione e monitoraggio degli errori dei supporti del disco rigido

Opzioni per il download

PDF (686.9 KB)
Visualizza con Adobe Reader su diversi dispositivi
ePub (573.0 KB)
Visualizza in diverse app su iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (699.6 KB)
Visualizza su dispositivo Kindle o tramite app Kindle su più dispositivi

Aggiornato:22 aprile 2020

ID documento:213800

Linguaggio senza pregiudizi

La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.

Informazioni su questa traduzione

Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).

Sommario

Introduzione

Prerequisiti

Requisiti

Componenti usati

Premesse

Gestione degli errori dei supporti HDD

Ruolo HDD

Livello dischi rigidi difetti (G-list)

Ruolo controller RAID

Patrol Read

Verifica coerenza

Condizioni in cui un controller RAID non è in grado di correggere un errore medio

Informazioni correlate

Introduzione

In questo documento vengono descritti i diversi tipi di errori del disco, le relative modalità di classificazione e gli strumenti che è possibile utilizzare per identificarli.

Prerequisiti

Requisiti

Nessun requisito specifico previsto per questo documento.

Componenti usati

Le informazioni fornite in questo documento si basano sui dischi rigidi di Unified Computing System (UCS).

Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.

Premesse

Il documento descrive inoltre il ruolo del controller del disco rigido (HDD) e del controller RAID (Redundant Array of Independent Disks) quando vengono identificati gli errori medi presenti sulle unità.

Nota: gli errori medi vengono anche definiti errori dei supporti

Gestione degli errori dei supporti HDD

Cosa causa gli errori del supporto HDD?

La causa più comune degli errori medi è la scarsa ampiezza del segnale, che determina

Percorso di lettura LBA (Logical Bus Address) non affidabile. A volte recuperabili con più tentativi.
Condizioni transitorie, scritture ad alta velocità causate da particelle morbide.
Condizioni transitorie causate da urti temporanei, vibrazioni o eventi acustici che determinano scritture fuori traccia.
Funzione di mappatura degli errori insufficiente nella produzione del disco rigido che determina l'imbottitura delle posizioni dei difetti principali correnti.

In che modo il disco rigido rileva l'errore medio?

Passaggio 1. Il disco rigido esegue periodicamente scansioni dei supporti in background per rilevare gli errori.

Passaggio 2. Il disco rigido tenta di leggere dal supporto e per qualche motivo non è in grado di recuperare i dati scritti.

Passaggio 3. Quando il disco rigido non è in grado di recuperare i dati che sono stati scritti, richiama il codice di recupero del disco rigido che proverà vari passaggi di recupero dell'errore per leggere correttamente i dati dal supporto.

Passaggio 4. Se tutte le operazioni di ripristino hanno esito negativo, l'unità genererà un errore 03/11/0x all'host e gli LBA verranno inseriti nell'elenco dei difetti in sospeso.

In che modo il controller Raid rileva gli errori medi?

Il controller RAID incontra errori medi durante le operazioni di lettura di controllo, verifica della coerenza, lettura normale, ricostruzione e lettura/modifica/scrittura.
In base alla configurazione RAID, il controller potrebbe essere in grado di gestire l'errore medio riportato dall'HDD e non sarà necessario eseguire altre operazioni.
In alcuni casi, il controller non sarà in grado di gestire l'errore del supporto e passerà l'errore all'host per gestirlo.

Quando il sistema operativo visualizza gli errori medi?

Se il disco rigido segnala un errore medio e il controller RAID non è in grado di gestire il ripristino, l'host verrà informato dell'errore.
Questa notifica non è più solo un messaggio informativo che informa il sistema che l'evento si è verificato, ma è una richiesta per il sistema operativo di agire perché l'HDD e il controller RAID non è stato in grado di recuperare dall'errore del supporto.
Se il sistema operativo dispone del contesto richiesto per risolvere correttamente l'errore del supporto, deve gestirlo
Se i dischi si trovano in un solo gruppo di dischi (JBOD), il sistema operativo visualizzerà gli errori in quanto non vengono corretti dal controller. Ciò è comune negli ambienti HyperFlex (HX)/ Virtual Storage Area Network (VSAN).

Ruolo HDD

Livello dischi rigidi difetti (G-list)

Durante il funzionamento di un'unità, la testa potrebbe trovarsi in un settore con un livello di lettura magnetica ridotto. I dati sono ancora leggibili, ma potrebbero scendere al di sotto della soglia preferita per i livelli di lettura qualificati del settore. Questa unità disco considererebbe questo un settore che potrebbe e vorrebbe risparmiare questi dati in una nuova posizione disponibile nell'elenco di riserve valide note. Una volta spostati i dati, l'indirizzo del settore precedente viene aggiunto all'elenco Difetti estesi, per non essere più utilizzato. Questo processo è un errore del supporto recuperabile. L'unità darà un impulso SMART una volta che la maggior parte dei suoi settori di riserva noti-validi saranno esauriti.

Ruolo controller RAID

Patrol Read

Patrol Read è un'opzione definibile dall'utente che esegue letture delle unità in background e mappa le aree danneggiate dell'unità.
Patrol Read verifica la presenza di errori fisici del disco che potrebbero causare guasti all'unità. Tali controlli comprendono in genere un tentativo di azione correttiva. La lettura di controllo può essere attivata o disattivata con l'attivazione automatica o manuale.
Una lettura di controllo verifica periodicamente tutti i settori dei dischi fisici collegati a un controller, che includono l'area riservata del sistema nelle unità configurate RAID. Patrol Read funziona per tutti i livelli RAID e tutte le unità hot spare.
Questo processo viene avviato solo quando il controller RAID rimane inattivo per un determinato periodo di tempo e non sono attive altre attività in background, sebbene possa continuare a essere eseguito contemporaneamente ai processi di input/output (I/O) pesanti.
Non è possibile eseguire letture di controllo sulle unità configurate in JBOD.

Nota:l'LSI (Latent Semantic Indexing) consiglia di lasciare la frequenza di lettura di pattuglia e le altre impostazioni di lettura di pattuglia sui valori predefiniti per ottenere le migliori prestazioni del sistema. Se si decide di modificare i valori, registrare qui il valore predefinito originale in modo da poterlo ripristinare in seguito.

Nota: durante l'esecuzione di Patrol Read non viene segnalato lo stato di avanzamento. Lo stato di lettura della pattuglia è riportato solo nel registro eventi.

Le opzioni di lettura della pattuglia sono come mostrato nell'immagine:

Screen Shot 2018-03-27 at 3.18.50 PM Esempi di MegaCli

Per visualizzare le informazioni sullo stato di lettura della pattuglia e il ritardo tra le esecuzioni di lettura della pattuglia:
# MegaCli64 -AdpPR -Info -aALL

Per conoscere la frequenza di lettura corrente delle pattuglie, eseguire:
# MegaCli64 -AdpGetProp FrequenzaLetturaControllo -aALL

Per disabilitare la lettura automatica della pattuglia:
# MegaCli64 -AdpPR -Dsbl -aALL

Per abilitare la lettura automatica delle pattuglie:
#MegaCli64 -AdpPR -EnblAuto -All

Per avviare un'analisi di lettura di pattuglia manuale:
# MegaCli64 -AdpPR -Start -All

Per interrompere una scansione di lettura di pattuglia:
# MegaCli64 -AdpPR -Stop -aALL

Verifica coerenza

In RAID, il Consistency Check verifica la correttezza dei dati ridondanti in un array. Ad esempio, in un sistema con parità, verificare la coerenza significa calcolare la parità delle unità dati e confrontare i risultati con il contenuto dell'unità di parità.
JBOD non supporta la verifica di coerenza.
RAID 0 non supporta la verifica di coerenza.
RAID 1 utilizza un confronto dei dati e non la parità.
RAID 6 calcola la parità per 2 unità di parità e verifica entrambe.

Nota: si consiglia di eseguire una verifica coerenza almeno una volta al mese.

Le opzioni di gestione del controllo di coerenza sono indicate nell'immagine:

Screen Shot 2018-03-27 at 3.23.33 PM

Le opzioni di pianificazione del controllo di coerenza sono indicate nell'immagine:

Screen Shot 2018-03-27 at 3.24.16 PM

Esempi di MegaCli

Per visualizzare il successivo tempo di verifica coerenza pianificato:
#MegaCli64 -AdpCcSched -Info -aALL

Per modificare l'ora pianificata per il controllo di coerenza:
#MegaCli64 -AdpCCSched -SetSTartTime 20171028 02 -All

Per disabilitare la verifica di coerenza:
#MegaCli64 -AdpCcSched -Dsbl -aALL

Condizioni in cui un controller RAID non è in grado di correggere un errore medio

In JBOD
- Il sistema operativo host è responsabile degli errori medi.

In RAID 0
- Poiché non è presente alcuna ridondanza, il controller non è in grado di fornire all'HDD i dati da scrivere sull'LBA.
In RAID 1
- Quando il controller non è in grado di determinare quale copia mirror contiene i dati corretti. Ciò si verifica solo se è possibile leggere entrambi gli LBA, ma i dati non corrispondono.
RAID 5
- Se sono presenti 2 o più errori nello stesso stripe. È molto probabile che si verifichi dopo l'avvio della ricostruzione di una matrice. L'unità ricostruita è un errore, mentre un errore medio su qualsiasi altra unità ricostruita sarebbe il secondo errore. Il controller non è in grado di ricostruire i dati necessari per ricostruire l'LBA sull'unità sostitutiva.
RAID 6
- Se nella stessa stripe sono presenti 3 o più errori. È molto probabile che si verifichi durante la ricostruzione di un array. L'unità ricostruita presenta un errore e un errore medio su due altre unità durante la ricostruzione indica un secondo e un terzo errore oppure un errore medio e un secondo errore dell'unità. Il controller non sarebbe in grado di ricostruire i dati necessari per ricostruire gli LBA sulle unità con gli errori.

Informazioni correlate

Cronologia delle revisioni

Revisione	Data di pubblicazione	Commenti
1.0	22-Apr-2020	Versione iniziale

Contributo dei tecnici Cisco

Wes Austin
Cisco TAC Engineer
David Scheffrey
Cisco TAC Engineer
David Duell
Cisco TAC Engineer

Questo documento ti è stato utile?

Feedback

Contattaci

Apri una richiesta di assistenza
(Occorre un contratto di servizio Cisco)

Risoluzione dei problemi, gestione e monitoraggio degli errori dei supporti del disco rigido

Opzioni per il download

Linguaggio senza pregiudizi

Informazioni su questa traduzione

Sommario

Introduzione

Prerequisiti

Requisiti

Componenti usati

Premesse

Gestione degli errori dei supporti HDD

Ruolo HDD

Livello dischi rigidi difetti (G-list)

Ruolo controller RAID

Patrol Read

Verifica coerenza

Condizioni in cui un controller RAID non è in grado di correggere un errore medio

Informazioni correlate

Cronologia delle revisioni

Contributo dei tecnici Cisco

Questo documento ti è stato utile?

Contattaci

Questo documento si applica a questi prodotti