Introduzione
Questo documento descrive come risolvere i problemi dei moduli di memoria e i problemi correlati nella soluzione Cisco Unified Computing System (UCS).
Prerequisiti
Requisiti
Cisco consiglia la conoscenza di Cisco Unified Computing System (UCS).
Componenti usati
Il documento può essere consultato per tutte le versioni software o hardware.
Tuttavia, il presente documento riguarda:
- Cisco UCS serie B Blade Server
- UCS Manager
- UCS utilizza il modulo DIMM (Dual In-line Memory Module) come moduli RAM.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Metodologia di risoluzione dei problemi
In questa sezione vengono illustrate diverse parti dei problemi relativi alla memoria UCS.
- Posizionamento memoria
- Risoluzione dei problemi relativi ai DIMM tramite UCSM e CLI
- Registri per il check-in del supporto tecnico
Termini e acronimi
DIMM |
Modulo di memoria dual in-line |
ECC |
Errore durante la correzione del codice |
LVDIMM |
DIMM a bassa tensione |
MCA |
Architettura controllo computer |
MEMBIST |
Test automatico incorporato della memoria |
MRC |
Codice riferimento memoria |
POST |
Test automatico di accensione |
SPD |
Rilevamento presenza seriale |
DDR |
Double Data Rate |
RAS |
Affidabilità, disponibilità e facilità di manutenzione |
Posizionamento della memoria
Il posizionamento della memoria è uno degli aspetti fisici più evidenti della soluzione UCS.
In genere, il server viene fornito con una quantità di memoria precompilata.
In caso di dubbi, consultare la guida all'installazione dell'hardware.
Per le regole di compilazione della memoria, fare riferimento alle specifiche tecniche della serie B per la piattaforma specifica.
Link alle specifiche tecniche della serie B:
Data sheet
Errori di memoria
- Errore DIMM
- Multibit = Non correggibile
- Il POST è mappato dal BIOS; il sistema operativo non vede DIMM.
- Il runtime in genere causa il riavvio del sistema operativo.
- Singlebit = Correctable
- Il sistema operativo continua a visualizzare la DIMM.
- Errore ECC (Error Correcting Code)
- Errore di parità
- Errore SPD (Serial Presence Detect)
- Errore di configurazione
- DIMM non supportati
- Popolamento DIMM non supportato
- DIMM non accoppiati
- Errori di mancata corrispondenza
- Errore non stabilizzabile dell'identità
- Controllare e aggiornare il catalogo.
Errori correggibili e non correggibili
La possibilità di correggere o meno un determinato errore dipende dalla forza del codice ECC utilizzato nel sistema di memoria.
L'hardware dedicato è in grado di correggere gli errori correggibili quando si verificano senza alcun impatto sull'esecuzione del programma.
I DIMM con errori correggibili non vengono disattivati e sono disponibili per l'uso da parte del sistema operativo. OSPF (Open Shortest Path First) Total Memory
e Effective Memory
sono uguali.
Questi errori correggibili sono segnalati nello stato di operabilità UCSM come Degraded
mentre l'operabilità generale è Operable
con errori correggibili.
Errori non correggibili rendono impossibile l'esecuzione dell'applicazione o del sistema operativo.
I DIMM con errori irreversibili sono disabilitati e il sistema operativo non li visualizza. In questo caso, la proprietà OperState di UCSM verrà impostata su Inoperable.
Risoluzione dei problemi relativi ai DIMM tramite UCSM e CLI
Controllo degli errori dalla GUI
UCSM |
Log |
Descrizione |
Stato DIMM |
Operabilità |
SEL |
Commenti |
Operabile |
Operabile |
Controllare il registro SEL per individuare eventuali errori relativi al modulo DIMM. |
Un modulo DIMM è installato e funzionante. |
Operabile |
Danneggiato |
Controllare l'eventuale presenza di errori ECC in SEL. |
Durante il runtime viene rilevato un errore DIMM ECC correggibile. |
Rimosso |
N/D |
Nessun log |
DIMM non installato o dati SPD danneggiati. |
Disabled |
Operabile |
Selezionate SEL per individuare eventuali errori non stabilibili relativi all'identità. |
Controlla e aggiorna il catalogo funzionalità. |
Disabled |
N/D |
Controllare SEL se un'altra DIMM in è guasta nello stesso canale. |
Un modulo DIMM è integro ma disabilitato perché una regola di configurazione non può essere mantenuta da un modulo DIMM guasto nello stesso canale. |
Disabled |
N/D |
Nessun log |
Regola di configurazione della memoria non riuscita a causa di DIMM mancanti. |
Inoperabile |
Inutilizzabile/da sostituire |
|
È stato rilevato un errore ECC UE. |
Danneggiato |
Inoperabile |
Controllare l'eventuale presenza di errori ECC in SEL. |
Lo stato DIMM e l'operabilità sono cambiati a causa di errori ECC rilevati prima del riavvio dell'host. |
Danneggiato |
Inutilizzabile/da sostituire |
Controllare l'errore SEL per ECC durante POST/MRC. |
È stato rilevato un errore ECC non correggibile durante il runtime, DIMM rimane disponibile per il sistema operativo, si blocca e viene ripristinato, ma può comunque utilizzare questo DIMM. L'errore può ripetersi in seguito. Nella maggior parte dei casi è necessario sostituire DIMM. |
Per ottenere le statistiche, passare a Equipment > Chassis > Server > Inventory > Memory,
quindi fare clic con il pulsante destro del mouse Memory
e selezionare show navigator.
Controllo degli errori dalla CLI
Questi comandi sono utili per risolvere gli errori dalla CLI.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
Dall'ambito dell'array di memoria è inoltre possibile accedere a DIMM.
scope server X/Y > scope memory-array Z > scope DIMM N
Da qui è possibile ottenere statistiche per DIMM o reimpostare i contatori di errore.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Se viene visualizzato un errore che corrisponde a queste informazioni, è possibile correggere il problema reimpostando il BMC anziché il server blade.
Utilizzare i seguenti comandi Cisco UCS Manager CLI:
(il ripristino del BMC non ha alcun impatto sul sistema operativo in esecuzione sul blade).
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
Con UCS release 2.27, 3.1 e successive, le soglie per gli errori corretti per la memoria sono state rimosse.
Pertanto, i moduli di memoria non vengono più segnalati come Inoperable
o Degraded
unicamente a causa di errori di memoria corretti.
Come indicato nel white paper Gestione degli errori di memoria correggibili sui server Cisco UCS
Le richieste del settore per una maggiore capacità, una maggiore larghezza di banda e tensioni operative più basse determinano un aumento delle percentuali di errore della memoria.
Tradizionalmente, il settore ha trattato gli errori correggibili allo stesso modo degli errori non correggibili, richiedendo la sostituzione immediata del modulo al momento dell'avviso.
Considerate le numerose ricerche che dimostrano che gli errori correggibili non sono correlati a quelli non correggibili e che gli errori correggibili non compromettono le prestazioni del sistema, il team Cisco UCS consiglia di sostituire immediatamente i moduli con errori correggibili.
I clienti che avvertono di un problema di memoria danneggiata per errori correggibili sono invitati a reimpostare l'errore di memoria e a riprendere l'operazione. Questa raccomandazione consente di evitare inutili interruzioni del server. I miglioramenti futuri alla gestione degli errori distinguono tra i vari tipi di errori correggibili e identificano le azioni appropriate, se necessarie.
Come minimo, utilizzare la versione 2.1(3c) o 2.2(1b) che presenta miglioramenti con la gestione degli errori della memoria UCS
File di log da archiviare nel supporto tecnico
UCSM_X_TechSupport > sam_techsupportinfo
fornisce informazioni su DIMM e array di memoria.
Supporto tecnico per chassis/server
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
In base alla versione/piattaforma, passare ai file nel pacchetto di supporto tecnico.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
Questi file forniscono informazioni sulla memoria viste a livello di BIOS.
È possibile creare un nuovo riferimento incrociato alle informazioni con le tabelle di report degli stati DIMM.
Esempio:
/var/nuova/BIOS/RankMarginTest.txt
- Utile per mostrare i risultati del test di training del BIOS MEMBIST.
- Cerca errori.
- Verificare se vi sono DIMM mappati.
- Visualizza informazioni specifiche per DIMM (fornitore/velocità/PID).
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
La prima colonna ha due valori:
Localizzatore DIMM (F2)
Stato DIMM (01)
Di seguito è riportata una breve descrizione per ogni stato:
0x00 // Non installato (senza DIMM)
0x01 // Installato (funzionante)
//// 0x02-0F (Riservato)
//// Non riuscito
0x10 // Formazione non riuscita
0x11 // Formazione orologio non riuscita
//// 0x12-17 (Riservato)
0x18 // MemBIST non riuscito
//// 0x19-1F (Riservato)
//// Ignorato
0x20 // Ignorato (disabilitato dalla console di debug)
0x21 // Ignorato (errore SPD segnalato dal BMC)
0x22 // Ignorato (non RDIMM)
0x23 // Ignorato (non ECC)
0x24 // Ignorato (Non-x4)
0x25 // Ignorato (altra PDIMM nello stesso LDIMM non riuscita)
0x26 // Ignorato (altro LDIMM nello stesso canale non riuscito)
0x27 // Ignorato (altro canale in LockStep o Mirror non riuscito)
0x28 // Ignorato (popolamento PDIMM non valido)
0x29 // Ignorato (Organizzazione PDIMM non corrispondente)
0x2A // Ignorato (Mancata corrispondenza fornitore registro PDIMM)
//// 0x2B-7F (Riservato)
var/nuova/BIOS > MemoryHob.txt
Mostra la memoria effettiva e non riuscita installata sul server.
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - Lo stato del modulo DIMM viene contrassegnato come non riuscito se non supera il test MemBist. Sostituire con un DIMM sicuramente funzionante.
Descrizione stato DIMM
00h non installato (senza DIMM)
01h installato (funzionante)
02h-0Fh Riservato
10h non riuscito (formazione)
11h non riuscito (addestramento orologio)
12h-17h Riservato
18h non riuscita (MemBIST)
19h-1Fh Riservato
20h ignorato (disabilitato dalla console di debug)
21h ignorato (errore SPD segnalato dal BMC)
22 ore ignorate (non RDIMM)
23 ore ignorate (non ECC)
24 ore ignorate (non x4)
25 ore ignorate (altro PDIMM nello stesso LDIMM non riuscito)
26 ore ignorate (errore di un altro LDIMM nello stesso canale)
27 ore ignorate (altro canale in LockStep o Mirror)
28h ignorato (popolazione di memoria non valida)
29h Ignorato (mancata corrispondenza organizzazione)
2Ah ignorato (mancata corrispondenza del fornitore del registro)
2Bh- 7Fh Riservato
80 ore ignorate (ciclo della soluzione)
81h ignorato (bus I2C bloccato)
82h - Fh riservato
Blocco DIMM
Dentro Cisco UCS Manager
, lo stato del Dual In-line Memory Module
(DIMM) è basato su record di eventi SEL.
Quando il BIOS rileva un errore di memoria non correggibile durante l'esecuzione del test della memoria, il DIMM viene contrassegnato come difettoso.
Un DIMM difettoso è considerato un dispositivo non funzionante.
Se si abilita l'elenco di blocchi DIMM, Cisco UCS Manager monitora i messaggi di esecuzione dei test della memoria ed elenca tutti i DIMM per i quali si sono verificati errori di memoria nei dati SPD DIMM.
L'elenco di blocco DIMM è stato introdotto come criterio globale facoltativo in UCSM 2.2(2).
Il firmware dei server deve essere 2.2(1)+ per i blade serie B e 2.2(3)+ per i server rack serie C per implementare correttamente questa funzione.
In UCSM 2.2(4), DIMM, Blocklisting è abilitato.
Aprire il file del supporto tecnico .../var/log/DimmBL.log
Aprire il file /var/nuova/BIOS/MrcOut.txt, se disponibile
Individuare la tabella di stato DIMM. Cerca stato DIMM:
Blocco DIMM elencato = 1E
Individuare la tabella di stato DIMM. Cerca stato DIMM:
Stato DIMM:
00 - Non installato
01 - Installato
10 - Non riuscito (errore di training) cancella
1E - Non riuscito (blocco DIMM elencato da BMC)
1F - Operazione non riuscita (errore SPD)
25 - Disattivato (errore di un altro DIMM nello stesso canale).
Esempio:
Stato DIMM:
|=======================|
| Memoria | Stato DIMM |
| Channel | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| S | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
Stato DIMM:
01 - Installato
1E - Non riuscito (blocco DIMM elencato da BMC)
1F - Operazione non riuscita (errore SPD)
25 - Disabilitato (altra DIMM non riuscita nello stesso canale)
Metodi per cancellare gli errori di elenco blocchi DIMM
GUI UCSM
UCSM CLI
UCS-B/chassis/server # reset-all-memory-errors
Informazioni correlate
Bug degni di nota
ID bug Cisco CSCug93076 B200M3-DDR Voltage Regulator presenta un rumore eccessivo sotto carico leggero
L'ID bug Cisco CSCup07488 IPMI DIMM fault sensor sta impostando Dimm Degraded (Danneggiato) senza conteggio errori.
ID bug Cisco CSCud22620 Maggiore precisione nell'identificazione dei DIMM danneggiati
L'ID bug Cisco CSCuw4524 C460M4, B260M4 o B460M4 IVB clear CMOS può causare un errore UECC della memoria
Errori Cisco ID bug CSCur19705 ECC/UECC rilevati su B200M3
ID bug Cisco CSCvm88447Manca la documentazione relativa ai passaggi di ripristino ECC per i server Colusa autonomi