はじめに
このドキュメントでは、Cisco Unified Computing System(UCS)ソリューションのメモリモジュールおよび関連問題のトラブルシューティング方法について説明します。
前提条件
要件
Cisco Unified Computing System(UCS)に関する知識があることが推奨されます。
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
ただし、このドキュメントでは次の点を取り上げます。
- Cisco UCS Bシリーズブレードサーバ
- UCS マネージャ
- UCSはRAMモジュールとしてDual In-line Memory Module(DIMM)を使用します。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
トラブルシューティングの方法
このセクションでは、UCSメモリの問題のいくつかの部分について説明します。
- メモリの取り付け
- UCSMおよびCLIによるDIMMのトラブルシューティング
- テクニカルサポートで確認するログ
用語および略語
DIMM |
Dual In-line Memory Module(デュアル インライン メモリ モジュール) |
ECC |
Error Correcting Code(エラー訂正コード) |
LVDIMM |
Low Voltage DIMM(低電圧 DIMM) |
MCA |
Machine Check Architecture(マシン チェック アーキテクチャ) |
MEMBIST |
Memory Built-In Self Test(メモリ組み込み自己テスト) |
MRC |
Memory Reference Code(メモリ参照コード) |
POST |
Power On Self Test |
SPD |
Serial Presence Detect(シリアル プレゼンス検出) |
DDR |
Double Data Rate(ダブル データ レート) |
RAS |
Reliability, Availability and Serviceability(信頼性、可用性、有用性) |
メモリの取り付け
メモリの配置は、UCSソリューションの最も重要な物理的側面の1つです。
通常、サーバには必要な容量がメモリにあらかじめ入力されています。
ただし、不明な点がある場合は、ハードウェアインストールガイドを参照してください。
メモリ取り付けルールについては、各プラットフォームのBシリーズ技術仕様を参照してください。
B シリーズの技術仕様書のリンク:
データシート
メモリ エラー
- DIMM エラー
- マルチビット:訂正不能
- POSTはBIOSによってマッピングされ、OSはDIMMを認識しません。
- ランタイムにより、OS がほぼ常にリブートされる.
- パリティ エラー
- Serial Presence Detect(SPD)エラー
- 設定エラー
- サポート外の DIMM
- サポート外の DIMM 取り付け
訂正可能なエラーと訂正不能なエラー
特定のエラーが訂正可能か訂正不能かは、メモリ システムに採用されている ECC コードの強度に依存します。
専用ハードウェアは、訂正可能なエラーが生じた場合に、プログラムの実行に影響を与えずにそのエラーを修復できます。
修正可能なエラーのあるDIMMは無効にされておらず、OSで使用できます。 Total Memory
と Effective Memory
は同じです。
これらの修正可能なエラーは、UCSMの操作可能状態では Degraded
として報告され、修正可能なエラーがある状態では全体的な操作は Operable
として報告されます。
修正不可能なエラーがあると、アプリケーションまたはオペレーティングシステムの実行を続行できなくなります。
修正不可能なエラーが発生したDIMMは無効になり、OSからは認識されません。この場合、UCSM operStateがInoperableに変更されます。
UCSM および CLI での DIMM トラブルシューティング
GUIからのエラーの確認
UCSM |
ログ |
説明 |
DIMM Status |
ステータス |
SEL |
注釈 |
操作可能 |
操作可能 |
SEL ログで DIMM 関連エラーの確認が必要. |
DIMM がインストールされ、動作しています。 |
操作可能 |
低下 |
SEL で ECC エラーの確認が必要. |
ランタイム中に訂正可能な ECC DIMM エラーが検出されました。 |
削除済み |
N/A |
ログなし |
DIMM がインストールされていないか、SPD データが破損しています。 |
Disabled |
操作可能 |
SEL で識別不能エラーの確認が必要. |
Capability Catalog の確認と更新が必要. |
Disabled |
N/A |
SEL で同じチャネルの他の DIMM が不良でないか確認が必要. |
DIMMは正常ですが、同じチャネル内の障害が発生したDIMMでは設定ルールを維持できないため、無効になっています。 |
Disabled |
N/A |
ログなし |
DIMMの取り外しによるメモリ構成規則の失敗。 |
操作不能 |
Inoperable/Replacement required |
|
UE ECC エラーが検出されました。 |
低下 |
操作不能 |
SEL で ECC エラーの確認が必要. |
ホストがリブートする前に ECC エラーが検出されたため、[DIMM Status] と [Operability] が変更されました。 |
低下 |
Inoperable/Replacement required |
SEL で POST/MRC 中の ECC エラーの確認が必要. |
ランタイム中に訂正不能な ECC エラーが検出されましたが、OS は DIMM の使用を続行できます。OS はクラッシュして復旧しましたが、DIMM の使用を続行できます。エラーは再発の可能性があります。ほとんどの場合、DIMMを交換する必要があります。 |
統計情報を取得するには、「Equipment > Chassis > Server > Inventory > Memory,
」に移動し、右クリックして「 Memory
」を選択します show navigator.
CLIからのエラーの確認
CLI からエラーのトラブルシューティングを行うには、次のコマンドが使用できます。
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
メモリアレイスコープから、DIMMにアクセスすることもできます。
scope server X/Y > scope memory-array Z > scope DIMM N
そこから、DIMMごとの統計情報を取得したり、エラーカウンタをリセットしたりできます。
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
この情報に一致する修正可能なエラーが表示された場合は、ブレードサーバをリセットするのではなく、BMCをリセットすることで問題を修正できます。
次の Cisco UCS Manager CLI コマンドを使用します。
(BMCをリセットしても、ブレードで実行されているOSには影響しません)。
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
UCSリリース2.27および3.1以降では、メモリ訂正エラーのしきい値が削除されています。
したがって、メモリモジュールは Inoperable
、単に訂正済みメモリエラーが原因で Degraded
、またはそのように報告されなくなりました。
以下のホワイトペーパーに記載されているように、Cisco UCSサーバでの修正可能なメモリエラーの管理
業界では、より大容量、より広い帯域幅、より低い動作電圧に対する要求が高いメモリエラー率につながります。
従来、業界では訂正可能なエラーを訂正不能なエラーと同様に扱い、アラートが発生するとすぐにモジュールの交換が必要とされてきました。
広範な調査により、訂正可能なエラーは訂正不能なエラーと相関関係がないこと、訂正可能なエラーはシステム パフォーマンスを低下させないことがわかったので、Cisco UCS チームは訂正可能なエラーが発生するモジュールの交換は、状況判断のうえ、対応することを推奨します。
訂正可能なエラーに関するDegraded memoryアラートが発生した場合は、メモリエラーをリセットし、操作を再開することをお勧めします。 この推奨事項は、不要なサーバ中断を回避するのに役立ちます。 今後のエラー管理の機能拡張では、さまざまなタイプの訂正可能なエラーを区別し、必要に応じて適切なアクションを特定します。
少なくとも、バージョン2.1(3c)または2.2(1b)(UCSメモリエラー管理による機能拡張)を使用してください
テクニカル サポートで確認すべきログ ファイル
UCSM_X_TechSupport > sam_techsupportinfo
DIMM およびメモリ アレイに関する情報が記載されています。
サーバおよびシャーシに関するテクニカル サポート
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
プラットフォーム/バージョンに基づいて、テクニカルサポートバンドル内のファイルに移動します。
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
これらのファイルには、BIOS レベルで見たメモリに関する情報が記載されています。
これらの情報は、DIMM状態レポートテーブルで再度相互参照できます。
例:
/var/nuova/BIOS/RankMarginTest.txt
- BIOSトレーニングテストMEMBISTのテスト結果を表示するのに便利です。
- エラーを探します。
- DIMMがマップアウトされているかどうかを確認します。
- DIMM固有の情報(ベンダー/速度/PID)を表示します。
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
最初のカラムには、次の 2 つの値があります。
DIMM ロケータ(F2)
DIMM ステータス(01)
各ステータスの概要は次のとおりです。
0x00 // インストールされていない(DIMM なし)
0x01 // インストール済み(動作中)
//// 0x02-0F(予約済み)
//// 失敗
0x10 // トレーニング失敗
0x11 // クロック トレーニング失敗
//// 0x12-17(予約済み)
0x18 // MEMBIST 失敗
//// 0x19-1F(予約済み)
//// 無視
0x20 // 無視(デバッグ コンソールから無効化済み)
0x21 // 無視(BMC から SPD エラーのレポートあり)
0x22 // 無視(非 RDIMM)
0x23 // 無視(非 ECC)
0x24 // 無視(非 x4)
0x25 // 無視(同一 LDIMM 内の他の PDIMM が不良)
0x26// 無視(同一チャネル内の他の LDIMM が不良)
0x27 // 無視(ロックステップまたはミラーリングされている他のチャネルが失敗)
0x28 // 無視(無効な PDIMM の取り付け)
0x29 // 無視(PDIMM 組織の不一致)
0x2A // 無視(PDIMM 登録ベンダーの不一致)
//// 0x2B-7F(予約済み)
var/nuova/BIOS > MemoryHob.txt
サーバにインストールされている有効なメモリと失敗したメモリを表示します。
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h:DIMM が MEMBIST テストで不合格になると、DIMM ステータスが失敗となります。 問題のない既知の DIMM と交換してください。
DIMM ステータスの内容
00h インストールされていない(DIMM なし)
01h インストール済み(動作中)
02h-0Fh 予約済み
10h 失敗(トレーニング)
11h 失敗(クロック トレーニング)
12h-17h 予約済み
18h 失敗(MEMBIST)
19h-1Fh 予約済み
20h 無視(デバッグ コンソールから無効化済み)
21h 無視(BMC から SPD エラーのレポートあり)
22h 無視(非 RDIMM)
23h 無視(非 ECC)
24h 無視(非 x4)
25h 無視(同一 LDIMM 内の他の PDIMM が不良)
26h 無視(同一チャネル内の他の LDIMM が失敗)
27h 無視(ロックステップまたはミラーリングされた他のチャネル)
28h 無視(無効なメモリの取り付け)
29h 無視(組織の不一致)
2Ah 無視(登録ベンダーの不一致)
2Bh-7Fh 予約済み
80h 無視(回避策:ループ中)
81h 無視(I2C バスのスタック)
82h - FFh予約済み
DIMMブロックリスト
Cisco UCS Manager
では、 Dual In-line Memory Module
(DIMM)の状態はSELイベントレコードに基づいています。
メモリ テストの実行中に BIOS が訂正不能なメモリ エラーに遭遇すると、DIMM は不良とみなされます。
不良な DIMM は、動作しないデバイスとみなされます。
DIMMブロックリストを有効にすると、Cisco UCS Managerはメモリテスト実行メッセージを監視し、DIMM SPDデータ内でメモリエラーが発生したDIMMをブロックリストに登録します。
DIMMブロックリストは、UCSM 2.2(2)でオプションのグローバルポリシーとして導入されました。
この機能を正しく実装するには、サーバ ファームウェアのバージョンを、B シリーズ ブレードの場合は 2.2(1) 以上、C シリーズ ラック サーバの場合は 2.2(3) 以上にする必要があります。
UCSM 2.2(4)では、DIMMのブロックリストが有効になっています。
次のコマンドでテクニカル サポートファイルを開きます。.../var/log/DimmBL.log
ファイルが使用可能なら、次のコマンドでファイルを開きます。/var/nuova/BIOS/MrcOut.txt
DIMM ステータス テーブルを確認します。DIMMのステータスを確認します。
DIMMブロックリスト= 1E
DIMM ステータス テーブルを確認します。DIMMのステータスを確認します。
DIMM Status:
00:インストールされていない
01:インストール済み
10:失敗(トレーニング失敗)クリア
1E – 失敗(BMCによるDIMMブロックリスト)
1F:失敗(SPD エラー)
25 – 無効(他のDIMMが同じチャネルで不良)
例:
DIMM Status:
|=======================|
|メモリ| DIMMステータス|
|チャネル| 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
DIMM Status:
01:インストール済み
1E – 失敗(BMCによるDIMMブロックリスト)
1F:失敗(SPD エラー)
25:無効(同一チャネルの他の DIMM が失敗)
DIMMブロックリストのエラーをクリアする方法
UCSM GUI
UCSM CLI
UCS-B/chassis/server # reset-all-memory-errors
関連情報
重要なバグ
Cisco Bug ID CSCug93076 B200M3-DDR電圧レギュレータで軽負荷時に過剰なノイズが発生する
Cisco Bug ID CSCup07488 IPMI DIMM障害センサーがDIMMの性能低下をエラーにカウントしない
Cisco Bug ID CSCud22620性能低下DIMMの識別精度の向上
Cisco Bug ID CSCuw44524 C460M4、B260M4、またはB460M4 IVBでCMOSクリアによるメモリUECCエラー発生の可能性
Cisco Bug ID CSCur19705 B200M3でのECC/UECCエラー発生
Cisco Bug ID CSCvm88447スタンドアロンColusaサーバでECCリセット手順に関するドキュメントが欠落している