はじめに
このドキュメントでは、Unified Computing System(UCS)Manager(UCSM)の健全性とアップグレード前のチェックツールを実行するプロセスについて説明します。
前提条件
要件
システムにPython 3.6以降をインストールすることをお勧めします。
注:Windows OSを実行している場合は、Pythonをインストールして環境パスを設定できます。
注:Pythonの問題に関するTACケースを開かないでください/スクリプトの実行に失敗しました。問題を手動で特定し、特定された問題ごとにTACケースをオープンするには、「CLIコマンド」セクションを参照してください。
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
背景説明
UCSM Check Toolは、UCSMの安定性と復元力を確保するためにUCSMに対してプロアクティブなセルフチェックを実行するユーティリティです。UCSシステムの健全性チェックとアップグレード前のチェックのリストを自動化し、UCSインフラストラクチャのアップグレードやメンテナンス作業にかかる時間を節約します。
注:常に最新バージョンのツールをダウンロードして使用してください。このツールは頻繁に拡張されるため、古いバージョンを使用すると、重要なチェックを見逃す可能性があります。
注:このスクリプトは、ベストエフォート型の無料スクリプトです。ただし、すべての問題を特定することはできません。
使用するケース
- メンテナンスアクティビティの前後のUCSヘルスチェック
- Cisco TACと連携する場合
- 予防的なヘルスチェック
使用方法
Windows OS
ステップ 1:Pythonの最新バージョンはPython Downloadsからダウンロードします。
ステップ 2:通常のインストールプロセスを使用し、Install Now(推奨)をクリックしてセットアップをダウンロードします。
注:必ずAdd Python to PATHにチェックマークを付けてください。
ステップ 3:システム上でPythonがインストールされているディレクトリに移動します。
ステップ 4:コマンドプロンプトを開き、コマンドPythonを入力してPythonのインストールを確認します。
ステップ 5:ここからヘルスチェックスクリプトの最新バージョンをダウンロードし、フォルダに保存します。次に、図に示すように、圧縮ファイルを抽出します。
手順 6:次の図に示すように、最新のUCSMテクニカルサポートのログをダウンロードし、作成したフォルダに保存します。UCSMログバンドルのダウンロード手順については、次のリンクをクリックしてください。UCSMテクニカルサポートの生成。
手順 7:CMDを開き、UCSMTool.pyがあるフォルダにcdし、図に示すようにUCSMTool.pyを実行します。
ステップ 8:UCSMテクニカルサポートファイルがあるファイルパスを入力し、必要なオプションを選択します。
1. UCSMヘルスチェック
2. アップグレード前のチェック
MacOS
ステップ 1:MacOSにはデフォルトのPythonがインストールされています。インストールされているPythonのバージョンを次のように確認します。
注: Pythonのバージョンが3.6より古い場合は、3.6以降のリリースにアップグレードしてください。
注: Pythonバージョンが3.6以降の場合はステップ5に、それ以外の場合はステップ2に進みます。
ステップ 2:Pythonの最新バージョンをhttps://www.python.org/downloads/macos/からダウンロードします。
ステップ 3:通常のインストールプロセスを使用して、Pythonのインストールを完了またはアップグレードします。
ステップ 4:ここから最新バージョンのヘルスチェックスクリプトをダウンロードし、フォルダに保存します。次の図に示すように、圧縮ファイルを抽出します。
ステップ 5:次の図に示すように、最新のUCSMテクニカルサポートのログをダウンロードし、作成したフォルダに保存します。リンクをクリックして、UCSMログバンドルのダウンロード手順を検索します:UCSMテクニカルサポートの生成。
手順 6:端末を開き、ヘルスチェックスクリプトをダウンロードしたディレクトリを参照し、次に示すようにpython UCSMTool.pyまたはpython3UCSMTool.pyを実行します。
手順 7:UCSMテクニカルサポートファイルがあるファイルパスを入力し、スクリプトを実行する目的のオプションを選択します。
1. UCSMヘルスチェック
- アップグレード前の確認
実行される出力とチェックについて
UCSM HealthCheckによって実行されるチェック
これらのチェックは、UCSM-Healthchecktoolで実行されます。
UCSM HA Cluster State:ファブリックインターコネクトのクラスタ状態を表示します。
PMON Process State:Cisco UCS Manager内のすべてのプロセスの状態を表示します。
ファイル・システムマウント:マウント・テーブルを表示します。
/var/ sysmgr sizeの問題を確認します。/var/ sysmgrの使用状況を確認します。
/var/ tmpサイズの問題のチェック:/var/ tmpが使用されているかどうかをチェックします。
6296 FI unresponsive after a power cycle, HW revision update:ファブリックインターコネクトモジュールとそのハードウェアリビジョン番号を確認します。
Faults with Severity Major or Severity Critical:UCS Managerにメジャーまたはクリティカルのアラートがあるかどうかを報告します。
使用可能なバックアップの確認:UCS Managerでバックアップが使用可能かどうかを確認します。
キーリング証明書のチェック:キーリングが期限切れか、または有効かを確認します。
Safeshut回避策が必要かどうか:Shafeshut回避策が必要かどうかを、FIモデルとそのバージョンを確認して確認します。
Cisco UCS Managerリリース 4.xの非推奨ハードウェア:Cisco UCS Manager 4.xリリースの非推奨ハードウェアを確認してください。
3.1.x以降で見つかった非推奨のハードウェア:Cisco UCS Manager 3.xリリースで非推奨のハードウェアがないかどうかを確認します
空白のMRAID12Gフィールドが原因でB200M4がリブートするかどうかを確認します。B200M4サーバに空白のMRAID12G RAIDコントローラのS/Nがあるかどうかを確認します。
UCSM 3.1最大電力割り当ての変更により、ブレード検出が失敗する:UCS Managerで設定されている電力ポリシーを確認する。
ブートフラッシュ破損の存在フォルトコードF1219:ブートフラッシュ破損の存在を確認します。
デフォルトのキーリングが削除されたときに起動に失敗するhttpdの確認:デフォルトのキーリングが削除されているかどうかを確認します。
第3世代FIのファイルシステム状態がクリーンでない – 「ファイルシステムの状態:エラーでクリーン」:ファイルシステムエラーを確認してください。
4.0(4b)へのサーバ自動インストールでSASコントローラのアクティブ化に失敗するかどうかを確認します。ホストファームウェアのバージョンとSASエクスパンダのバージョンを確認します。
Cシリーズファームウェアアップグレードの確認「サーバのインベントリを実行する」のプロセスが長く続くPNU OSインベントリ:サーバモデルとそのバージョンを確認して、この問題が発生しているかどうかを特定します。
ピリオドまたはハイフンを使用するUCSM認証ドメインの確認:認証ドメイン名にピリオドまたはハイフン文字が設定されているかどうかを確認します。
ローカルまたはフォールバック認証の失敗:特定のFIモデルに対して設定されている認証方式をチェックし、そのバージョンも確認します。
UCSMとUCS Central間のヘルスチェック:UCSManagerがUCS Centralに登録されているかどうかを確認します。
LANおよびSANピングループ:クラスタ内のlan/sanピン接続の設定を確認し、アップグレードまたはMWアクティビティの前に設定を確認することを強調します。
UCSMに存在する保留中のアクティビティの確認:UCS Managerドメインに保留中のアクティビティがあるかどうかを確認します。
IOMのヘルスチェック:IOモジュールの全体的な健全性をチェックします。
UCSMで使用可能なコアファイルのチェック:コアファイルが60日以内に見つかるかどうかを確認します。
分離L2の設定ミスの可能性:分離L2が設定されている場合に、設定ミスがないか確認します。
VIC 1400および6400のリンクフラップの問題:この不具合に存在する状態をチェックする
ファームウェアのアップデート中に2304 IOMが切断して再接続することを確認します。Fabric InterconnectとIOモジュールのモデルを確認し、潜在的な問題があるかどうかを特定します。
DMEヘルスチェック:Data Management Engine(DME)データベースの健全性を確認します。
FI上のインターフェイスの起動およびflogiマッチングの数:インターフェイスの数とflogiのセッションを確認します。
ジャンボまたは標準MTUの確認:MTUの設定を確認します。
サンプルUCSMツールの出力番号
afrahmad@AFRAHMAD-M-C3RS ucsm_health_check-master $ python UCSMTool.py
UCS Health Check Tool 1.1
Enter the UCSM file path: /Users/afrahmad/Desktop/20190328180425_fabric-5410-1k08_UCSM.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 2
Enter the UCS Target Version [Ex:4.1(1x)]: 4.2(1i)
Log Extraction: [########################] COMPLETED
UCSM Version: 3.2(3h)A
Target Version: 4.2(1i)
Upgrade Path: 3.2(3) ==> 4.2(1i)
Summary Result:
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 8 | Check Backup Available | No Backup | Please ensure to take backup, |
| | | | Refer this link: |
| | | | http://go2.cisco.com/UCSBackup |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Found | Review the release notes to verify the hardware compatibility. |
| | | | Refer this link: |
| | | | http://go2.cisco.com/RN-4 |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Found | Contact TAC |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 23 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 24 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 25 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 26 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 27 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 28 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 29 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 30 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 5, |
| | | | Flogi Count: 12 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 5, |
| | | | Flogi Count: 12 |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 31 | Jumbo or Standard MTU Check | NOT_FOUND | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
Faults with Severity Major:
F0207: Adapter ether host interface 3/3/1/2 link state: down
F0207: Adapter ether host interface 3/3/1/4 link state: down
F0207: Adapter ether host interface 3/3/1/3 link state: down
F0283: ether VIF 1153 on server 3 / 3 of switch B down, reason: Admin config change
F0479: Virtual interface 1153 link state is down
We would recommend Customers should complete the below prior to an upgrade:
a. Review firmware release notes
b. Review compatibility
c. Upload required images
d. Generate/Review UCSM show tech
e. Determine vulnerable upgrade bugs and complete pro-active workaround
f. Verify FI HA and UCSM PMON status
g. Generate all configuration and full state backups (right before upgrade)
h. Verify data path is ready (right before upgrade)
i. Disable call home (right before upgrade)
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
分析ツールの出力 – 次のステップ
- このツールは、UCSシステムで手動コマンドを実行するプロセスを自動化します。
- ツールでOKが実行され、すべてのテストでPASS/NOT FOUNDが示される場合。UCSシステムは、スクリプトが実行したすべてのチェックに対して有効です。
- 一部のチェックでツールFAIL/FOUNDが失敗する、またはツールが正常に実行されない場合、CLIコマンド(ここにリストされています)を使用して、スクリプト「Manually」で実行されるUCSシステム/Fabric Interconnectで同じチェックを実行できます。
- このツールでは、古い、新しい、オープンな、または解決された注意事項はチェックされません。そのため、アップグレードやメンテナンスを行う前に、UCSリリースノートとアップグレードガイドを確認することを強くお勧めします。
ヒント:UCS環境の一般的なヘルスチェックのために、Cisco TACではこのサービスを提供していません。シスコのCX Customer Delivery Team(旧称Advanced Services)には、バグスクラブ/リスク分析が用意されています。このタイプのサービスが必要な場合は、営業/アカウントチームにお問い合わせください。
CLI コマンド
両方のファブリックインターコネクトへのSSH:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.