Inleiding
In dit document wordt beschreven hoe u probleemoplossing kunt uitvoeren voor geheugenmodules en gerelateerde problemen in Cisco Unified Computing System (UCS).
Voorwaarden
Vereisten
Cisco raadt kennis van Cisco Unified Computing System (UCS) aan.
Gebruikte componenten
Dit document is niet beperkt tot specifieke software- en hardware-versies.
In dit document wordt echter ook het volgende besproken:
- Cisco UCS B-Series bladeservers
- UCS Manager
- UCS gebruikt Dual In-line Memory Module (DIMM) als RAM-modules.
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u zorgen dat u de potentiële impact van elke opdracht begrijpt.
Probleemoplossingsmethode
In dit gedeelte worden verschillende onderdelen van UCS-geheugenproblemen besproken.
- Geheugenplaatsing
- Probleemoplossing voor DIMM's via UCSM en CLI
- Te controleren logboeken in technische ondersteuning
Termen en acroniemen
DIMM |
Dual In-line Memory Module |
ECC |
Error Correcting Code |
LVDIMM |
Low Voltage DIMM |
MCA |
Machine Check Architecture |
MEMBIST |
Memory Built-in Self Test |
MRC |
Memory Reference Code |
POST |
Power On Self Test |
SPD |
Serial Presence Detect |
DDR |
Double Data Rate |
RAS |
Reliability, Availability and Serviceability |
Geheugenplaatsing
Geheugenplaatsing is een van de belangrijkste fysieke aspecten van de UCS-oplossing.
Meestal wordt op de server geheugen geleverd dat vooraf is ingevuld met de gevraagde hoeveelheid.
Als u twijfelt, raadpleeg dan de hardware-installatiehandleiding.
Voor geheugenpopulatieregels raadpleegt u de technische specificaties van de B-serie voor het specifieke platform.
Link naar technische specificaties van B-serie:
Gegevensbladen
Geheugenfouten
- DIMM-fout
- Multibit = niet te corrigeren
- POST wordt toegewezen door BIOS; OS ziet DIMM niet.
- Runtime veroorzaakt normaal gesproken OS-herstart.
- Singlebit = te corrigeren
- Error Correcting Code (ECC) fout
- Pariteitsfout
- Seriële aanwezigheid detecteren (SPD)-fout
- Configuratiefout
- Geen ondersteunde DIMM's
- Niet-ondersteunde DIMM-populatie
- Ongekoppelde DIMM's
- Mismatch-fouten
- Fout Identiteit niet vast te stellen
- Controleer de catalogus en werk bij.
Correceerbare versus niet-corrigeerbare fouten
Of een bepaalde fout te corrigeren of niet te corrigeren is, is afhankelijk van de sterkte van de ECC-code die in het geheugensysteem is gebruikt.
Speciale hardware kan te corrigeren fouten oplossen wanneer ze optreden, zonder impact op de programma-uitvoering.
De DIMM's met te corrigeren fouten worden niet uitgeschakeld en kunnen worden gebruikt door het OS. Het Total Memory
en Effective Memory
zijn hetzelfde.
Deze corrigeerbare fouten worden in de uitvoerbaarheidsstatus van de UCSM gerapporteerd als Degraded
terwijl de algehele bedrijfsvoering Operable
met corrigeerbare fouten.
Niet te corrigeren fouten maken het onmogelijk voor de toepassing of het besturingssysteem om door te gaan met de uitvoering.
De DIMM's met niet te corrigeren fouten worden uitgeschakeld en het OS ziet ze niet. UCSM operState wijzigt in dit geval naar Inoperable .
Probleemoplossing voor DIMM's via UCSM en CLI
Fouten controleren op GUI
UCSM |
Logboeken |
Beschrijving |
DIMM-status |
Werkzaamheid |
SEL |
Opmerkingen |
Operable |
Operable |
Controleer SEL-logboek voor DIMM-gerelateerde fouten. |
Een DIMM is geïnstalleerd en functioneel. |
Operable |
Verslechterd |
Controleer SEL op ECC-fouten. |
Een te corrigeren ECC DIMM-fout is gedetecteerd tijdens de uitvoering. |
Verwijderd |
N.v.t. |
Geen logboeken |
Een DIMM is niet geïnstalleerd of heeft SPD-gegevens beschadigd. |
Uitgeschakeld |
Operable |
Controleer SEL op fouten voor Identiteit niet vast te stellen. |
Controleer de mogelijkheidscatalogus en werk bij. |
Uitgeschakeld |
N.v.t. |
Controleer SEL of nog een DIMM in hetzelfde kanaal een storing heeft. |
Een DIMM is gezond maar uitgeschakeld omdat de configuratieregel niet behouden kon blijven door een DIMM met storing in hetzelfde kanaal. |
Uitgeschakeld |
N.v.t. |
Geen logboeken |
Mislukte geheugenconfiguratieregel vanwege gemiste DIMM's. |
Inoperable |
Inoperable/Vervanging vereist |
|
UE ECC-fout is gedetecteerd. |
Verslechterd |
Inoperable |
Controleer SEL op ECC-fouten. |
DIMM-status en Werkzaamheid gewijzigd vanwege ECC-fouten zijn gedetecteerd voordat de host opnieuw werd opgestart. |
Verslechterd |
Inoperable/Vervanging vereist |
Controleer SEL op ECC-fout tijdens POST/MRC. |
Niet te corrigeren ECC-fout is gedetecteerd tijdens runtime, DIMM blijft beschikbaar voor OS, OS crasht en wordt weer gestart maar kan nog steeds dit DIMM gebruiken. Fout kan later opnieuw optreden. DIMM moet in de meeste situaties worden vervangen. |
Om statistieken te verkrijgen, navigeer naar Equipment > Chassis > Server > Inventory > Memory,
klik met de rechtermuisknop Memory
en selecteer show navigator.
Controleer fouten van CLI
Deze opdrachten zijn handig bij probleemoplossing voor fouten van CLI.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
Vanuit het geheugenarraybereik kunt u ook toegang krijgen tot DIMM.
scope server X/Y > scope memory-array Z > scope DIMM N
Van daaruit kunt u per-DIMM-statistieken ophalen of de fouttellers resetten.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Als u een te corrigeren fout ziet die overeenkomt met deze informatie, kan het probleem worden gecorrigeerd door de BMC te resetten in plaats van de bladeserver te resetten.
Gebruik deze Cisco UCS Manager CLI-opdrachten:
(Het resetten van de BMC heeft geen invloed op het OS dat wordt uitgevoerd op de blade.)
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
Met UCS releases 2.27 en 3.1 en hoger zijn de drempels voor geheugen gecorrigeerde fouten verwijderd.
Daarom worden geheugenmodules niet langer als Inoperable
of Degraded
alleen te wijten aan gecorrigeerde geheugenfouten.
Conform whitepaper Correcteerbare geheugenfouten op Cisco UCS-servers beheren
De branche vraagt om grotere capaciteit, grotere bandbreedte en lagere besturingsvoltages leiden tot hogere geheugenfoutpercentages.
De branche behandelde te corrigeren fouten op dezelfde manier als niet te corrigeren fouten, wat betekent dat de module direct na waarschuwing moest worden vervangen.
Aan de hand van uitgebreid onderzoek dat te corrigeren fouten niet worden gecorreleerd met niet te corrigeren fouten, en dat te corrigeren fouten de systeemprestaties niet verslechteren, raadt het Cisco UCS-team af om modules met te corrigeren fouten direct te vervangen.
Klanten die te maken hebben met een waarschuwing Verslechterd geheugen voor te corrigeren fouten, worden geadviseerd om de geheugenfout te resetten en verder te gaan met de werkzaamheden. Deze aanbeveling helpt onnodige serveronderbreking te vermijden. Toekomstige verbeteringen in foutenbeheer maken onderscheid tussen verschillende soorten correcteerbare fouten en geven aan welke acties nodig zijn, als die er zijn.
Gebruik ten minste versie 2.1(3c) of 2.2(1b), die verbetering hebben met foutbeheer voor UCS-geheugen
Te controleren logbestanden in Tech Support
UCSM_X_TechSupport > sam_techsupportinfo
Hier vindt u informatie over de DIMM en de geheugenarray.
Chassis/server tech support
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
Op basis van het platform/de versie gaat u naar de bestanden in tech support-bundel.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
Deze bestanden bieden informatie over geheugen vanuit BIOS-niveau.
Informatie kan hier worden gecontroleerd aan de hand van DIMM-statusrapporttabellen.
Voorbeeld:
/var/nuova/BIOS/RankMarginTest.txt
- Handig voor het tonen van de testresultaten van BIOS Training test MEMBIST.
- Zoek naar fouten.
- Kijk om te zien of er DIMM's zijn toegewezen.
- Specifieke DIMM-informatie tonen (Vendor/speed/PID).
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
De eerste kolom heeft twee waarden:
DIMM-zoeker (F2)
DIMM-status (01)
Hier vindt u een korte beschrijving voor elke status:
0x00 // Not Installed (Geen DIMM)
0x01 // Installed (Werkend)
//// 0x02-0F (Gereserveerd)
//// Failed
0x10 // Failed Training
0x11 // Failed Clock Training
//// 0x12-17 (Gereserveerd)
0x18 // Failed MemBIST
//// 0x19-1F (Gereserveerd)
//// Ignored
0x20 // Ignored (Uitgeschakeld vanuit foutopsporingsconsole)
0x21 // Ignored (SPD-fout gerapporteerd door BMC)
0x22 // Ignored (Non-RDIMM)
0x23 // Ignored (Non-ECC)
0x24 // Ignored (Non-x4)
0x25 // Ignored (Andere PDIMM in dezelfde LDIMM mislukt)
0x26 // Ignored (Andere LDIMM in hetzelfde kanaal mislukt)
0x27 // Ignored (Ander kanaal in LockStep of Mirror mislukt)
0x28 // Ignored (Ongeldige PDIMM-populatie)
0x29 // Ignored (PDIMM-organisatie-mismatch)
0x2A // Ignored (PDIMM-register leverancier-mismatch)
//// 0x2B-7F (Gereserveerd)
var/nuova/BIOS > MemoryHob.txt
Toont effectief en mislukt geheugen geïnstalleerd op de server.
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - DIMM-status is gemarkeerd als mislukt wanneer deze niet slaagt voor MemBist-test. Vervang met een goed werkende DIMM.
DIMM-statusbeschrijving
00h Not Installed (Geen DIMM)
01h Installed (Werkend)
02h-0Fh Reserved
10h Failed (Training)
11h Failed (Clocktraining)
12h-17h Reserved
18h Failed (MemBIST)
19h-1Fh Reserved
20h Ignored (Uitgeschakeld vanuit foutopsporingsconsole)
21h Ignored (SPD-fout gerapporteerd door BMC)
22h Ignored (Non-RDIMM)
23h Ignored (Non-ECC)
24h Ignored (Non-x4)
25h Ignored (Andere PDIMM in dezelfde LDIMM mislukt)
26h Ignored (Andere LDIMM in hetzelfde kanaal mislukt)
27h Ignored (Ander kanaal in LockStep of Mirror)
28h Ignored (Ongeldige geheugenpopulatie)
29h Ignored (Organisatie-mismatch)
2Ah Ignored (Register leverancier- mismatch)
2Bh- 7Fh Reserved
80h Ignored ( Tijdelijke oplossing -Lusvorming)
81h Ignored (Vastgelopen I2C-bus)
82h – FFh Reserved
DIMM-blokkering
In Cisco UCS Manager
, de stand van zaken Dual In-line Memory Module
(DIMM) is gebaseerd op SEL-gebeurtenisrecords.
Wanneer het BIOS een niet te corrigeren geheugenfout tegenkomt tijdens het uitvoeren van de geheugentest, wordt de DIMM gemarkeerd als foutief.
Een foutieve DIMM wordt beschouwd als een niet-werkend apparaat.
Als u DIMM-blokkering inschakelt, controleert Cisco UCS Manager de berichten over de uitvoering van de geheugentest en blokkeert hij alle DIMM's die geheugenfouten in de DIMM-SPD-gegevens ondervinden.
DIMM-blokkering is in UCSM 2.2(2) geïntroduceerd als een optioneel mondiaal beleid.
Serverfirmware moet 2.2(1)+ zijn voor blades van de B-serie en 2.2(3)+ voor rackservers van de C-serie om deze functie goed te kunnen implementeren.
In UCS M 2.2(4) is het DIMM, Blocklisting, ingeschakeld.
Open het tech support-bestand …/var/log/DimmBL.log
Open het bestand /var/nuova/BIOS/MrcOut.txt als het beschikbaar is
Zoek de DIMM-statustabel. Zoek naar DIMM-status:
DIMM-blokkering = 1E
Zoek de DIMM-statustabel. Zoek naar DIMM-status:
DIMM-status:
00 - Not Installed
01 - Installed
10 - Failed (Training failure)clear
1E - mislukt (DIMM-blokkering door BMC)
1F - Failed (SPD-fout)
25 - Uitgeschakeld (andere DIMM is mislukt in hetzelfde kanaal.)
Voorbeeld:
DIMM-status:
|=======================|
| Geheugen | DIMM-status |
| NOT REQUIRED FOR THIS LANGUAGE | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
DIMM-status:
01 - Installed
1E - mislukt (DIMM-blokkering door BMC)
1F - Failed (SPD-fout)
25 - Disabled (Andere DIMM mislukt in hetzelfde kanaal)
Methoden om DIMM-blokkeringsfouten te wissen
UCSM GUI
UCSM CLI
UCS-B/chassis/server # reset-all-memory-errors
Gerelateerde informatie
Belangrijke bugs
Cisco-bug-ID CSCug93076 B200M3-DDR voltageregulator heeft excessief geluid onder hoge belasting
Cisco-bug-ID CSCup07488 IPMI DIMM-storingssensor stelt Dimm Degraded in zonder fouttelling.
Cisco-bug-ID CSCud22620 Verbeterde nauwkeurigheid bij identificeren van Verslechterde DIMM's
Cisco-bug-ID CSCuw44524 C460M4, B260M4 of B460M4 IVB clear CMOS kan geheugen UECC-fout veroorzaken
Cisco-bug-ID CSCur19705 ECC/UECC-fouten geobserveerd op B200M3
Cisco-bug-ID CSCvm88447Documentatie voor ECC-stappen resetten ontbreken voor Standalone Colusa Servers