質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
ストレージ

ストレージとは、データを長期で保管・保存しておくための記憶装置。ハードディスクやDVD、CDなどが主なストレージとして挙げられます。PCでは作成データの他、OSやアプリケーションがインストールされています。

Windows Server

Windows Serverとは、Microsoft社のサーバ用オペレーティングシステムの総称です。 企業内ネットワークなどで利用されるサーバ機へ導入することを想定して開発されているため高い安定性があり、 管理機能を提供するソフトウェアが多く含まれています。

Q&A

1回答

531閲覧

【WindowsServer2012R2/QNAP】ストレージの特定ボリュームに対する書き込みが事実上停止してしまう症状

Utagoe33

総合スコア5

ストレージ

ストレージとは、データを長期で保管・保存しておくための記憶装置。ハードディスクやDVD、CDなどが主なストレージとして挙げられます。PCでは作成データの他、OSやアプリケーションがインストールされています。

Windows Server

Windows Serverとは、Microsoft社のサーバ用オペレーティングシステムの総称です。 企業内ネットワークなどで利用されるサーバ機へ導入することを想定して開発されているため高い安定性があり、 管理機能を提供するソフトウェアが多く含まれています。

0グッド

0クリップ

投稿2017/12/11 05:43

お世話になります。

【困っている事】
WindowsServer2台でクラスターを構成しており、その上で仮想マシンが4台稼働しています。
仮想マシンのHDDファイルの保存先としてQNAPのストレージをiSCSI接続で使用していて、
OS領域(Cドライブ)とデータ領域(Dドライブ以降)にボリュームを分けているのですが、
Dドライブ以降への書き込み時に、書き込みが遮断されているかのような現象が発生しています。

具体的には、10GBのデータを仮想マシンのFドライブに対してコピーしようとすると、
70%完了時点で突然転送速度が0付近まで落ち込み、それ以上殆ど進行しなくなります。

7GBまでのデータでは99%完了時点で転送速度が0付近に落ち込み、
その後、残り1%をわずかな転送速度で完了まで進行します。
なお、書き込み完了後、10~20秒前後仮想マシンのエクスプローラーが反応なしになることがあります。

サイズか、時間経過かわかりませんが、何かしらの要因で書き込みが遮られているように感じています。
これらの症状はGUI操作でのコピーでもコマンドからのコピーでも同様に発生します。
ストレージの代理店やメーカーにも問合せをして診断ツールからのログなどを送っておりますが、
ログの解析は2,3日かかるという事なのでその間に出来る事をしたいと思っています。

切っ掛けとして考えられる事は、Hyper-Vのチェックポイント機能の影響で
差分ファイルがボリュームの割り当て容量をオーバーし、仮想マシンが停止したために、
チェックポイントを削除して復旧したのですが、それ以降で発生しています。

仮想マシン上ではソフトウェアのインストールやファイルの配置などの作業が行われていて
書き込み遮断の症状がネックになっている状態で、可能な限り早急に対応したいと考えています。

以下に情報をまとめましたので、お知恵をお貸し頂ければ幸甚です。

【環境】
・物理サーバ(2台とも同じ構成でクラスター化しています)
モデル:Lenovo SystemX 3550 M5
OS:WindowsServer2012R2
CPU:Intel(R)Xeon(R)CPU E5-2650 v4 @2.20Ghz 12×1
メモリ:80GB
システム:64bit
Windowsアップデート:2017/11/8時点で最新
ファイアウォール:無効
インストール:Hyper-V、WindowsServerFailoverCluster(以下WSFC)

・仮想サーバ(4台とも同じ構成でWSFCの役割に登録しています)
OS:WindowsServer2012R2
CPU:Intel(R)Xeon(R)CPU E5-2650 v4 @2.20Ghz 4×1
メモリ:16GB
システム:64bit
Windowsアップデート:2017/11/8時点で最新
ファイアウォール:無効
インストール:McAfee(MOVE AV Multi-Platform),SQLServer2014

・ストレージ
モデル:QNAP ES1640DC V2
ファームウェア:v1.1.4(2017/11/02)
ディスク:HGST HUS726040AL5210(NL-SAS)4GB×15
RAID:6
HS:2本
使用可能な総容量:36.6TB
コントローラー:AとBの2つで構成され、障害が発生すると切り替わる想定

・ストレージ領域の構成
RAIDグループの数:1
RAIDグループ内に作成したLUNの数:3
LUNの役割と割り当て容量
・仮想マシンのCドライブ用(2.0TB 容量固定 圧縮なし)
・クォーラム監視ディスク用(10GB 容量固定 圧縮なし)
・仮想マシンのDドライブ以降用(33TB 容量固定 圧縮なし)

【ストレージの状態】
・ストレージプールのあるコントローラーAのCPU、メモリ使用率が常時70%から90%と高い(原因不明)
・現象が発生して以降、Web管理画面の反応が非常に悪くなっている(おそらく高負荷の影響)
・書き込みが遮断される症状はDドライブ以降で使用している領域でのみ発生している
・Cドライブへの書き込みは問題なく完了する
・ホストマシンからLUNへの書き込みは完了する(ディスク作成など)
・システムイベントログには関連するエラーは出ていない
・書き込みにはiSCSI用のLANが使用されている(管理用のLANを抜いても書き込みできる)

以上、把握している範囲で記載したつもりですが、
気になる点などありましたらご指摘ください。

何卒よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

本来は[追記/修正依頼]に記載すべき内容ですが、確認事項が多数あるため回答欄に記載します。
あくまで切り分けの思想のみを記載するものとし回答でないこと、ご容赦ください。

1)切っ掛けについて

切っ掛けとして考えられる事は、Hyper-Vのチェックポイント機能の影響で

切っ掛けが上記とありますが、それ以前は再現率0%でしょうか?
そうだったとして、ご質問文から該当環境は構築途上と見受けられますが、サービスが実装されてきたから遅くなったという可能性は排除できていますか?
また、iSCSI構成とのことで、構成によってはネットワークの影響を受けることもあります。

2)トリガについて

具体的には、10GBのデータを仮想マシンのFドライブに対してコピーしようとすると、

70%完了時点で突然転送速度が0付近まで落ち込み、それ以上殆ど進行しなくなります。

これを見る限りだと、ディスクI/Oボトルネック(主にディスク装置側キャッシュ)の可能性が高い気がします。

・ストレージプールのあるコントローラーAのCPU、メモリ使用率が常時70%から90%と高い(原因不明)

・現象が発生して以降、Web管理画面の反応が非常に悪くなっている(おそらく高負荷の影響)

上記もその一因では?

ただ、Cドライブで再現していないのがおかしいですね。

ちなみに、これをコントローラAとコントローラBの分散構成にできないのでしょうか?
ストレージ製品で2コントローラ製としているのであれば冗長以外に分散処理を実装していると思われますが。
ディスクグループまたはLUN毎に所属するコントローラが指定できたりしませんか?

3)構成について
NL-SAS RAID6 構成において、該当環境が担保できるだけの性能見積もりってされているのでしょうか?
【NL-SAS 遅い】 + 【RAID6 遅い】 の組み合わせなので少し心配です。
(同じような環境でストレスなく動作したという実績だけでもあるのでしょうか?)

4)他気になる点
・仮想ディスクはシンプロビジョニングですか?
→そうでない場合、新規領域を増やす場合に負荷が増大します。
・ディスク装置側ファームウェアは最新でしょうか?
→ ファームウェアのバグの可能性も考えられます。
・チェックポイントは全て削除していますか?
→ チェックポイントは便利な機能ですが、チェックポイントからの差分を全て記録していくため、ディスク容量の増加、ディスクI/Oの発生を生みます。私は運用フェーズに入ってからのチェックポイント運用はNGと考えています。
・チェックポイントを削除したとありますが、こちらはエラーなく削除できたのでしょうか。
・システムイベントログには関連するエラーは出ていない
→ こちらは、物理/仮想共にですか?またアプリケーションログも確認すべきです。
・サーバ側 iSCSIで使用している搭載NICの型番教えて頂けますでしょうか。

取り急ぎ、この状況であれば、私なら、まずは物理サーバ/仮想サーバのパフォーマンスモニタでディスクI/Oを確認します。
ここから、書き込み遅延が発生しているかを確認できるはずです。

投稿2017/12/11 07:40

over

総合スコア4309

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Utagoe33

2017/12/12 03:21

>>over様 詳細にコメント頂きありがとうございます。 1)切っ掛けについて >切っ掛けが上記とありますが、それ以前は再現率0%でしょうか? >そうだったとして、ご質問文から該当環境は構築途上と見受けられますが、 >サービスが実装されてきたから遅くなったという可能性は排除できていますか? 現在の状況をご説明しますと、物理的な構築が終了し、仮想上の構築が進んでいる段階です。 サービスが実装されてきたために遅くなった可能性についてですが、完全に排除できていません。 仮想上で作業しているユーザーから「チェックポイントの削除前と削除後で明らかに動作が違う」 という報告があり、調査を始めているという状況です。 >また、iSCSI構成とのことで、構成によってはネットワークの影響を受けることもあります。 iSCSIの通信には10GbEの光回線を使用していますので、 ネットワークの影響については運用に堪え得ると思っています。 2)トリガについて >これを見る限りだと、ディスクI/Oボトルネック(主にディスク装置側キャッシュ)の可能性が高い気がします。 調べきれていませんが、I/Oが頻繁に発生しているDドライブ以降でのみ発生していることを考えると、 可能性は高いと思っています。 >ちなみに、これをコントローラAとコントローラBの分散構成にできないのでしょうか? >ストレージ製品で2コントローラ製としているのであれば冗長以外に分散処理を実装していると思われますが。 >ディスクグループまたはLUN毎に所属するコントローラが指定できたりしませんか? 冗長しか意識しておりませんでした。 今から分散構成に変更できるか調べてみましたが、 ディスク容量の殆どが割り当て済になっているために、 ストレージプールを新規に作成する為の容量が確保できませんでした。 LUNに関しても33TB一括ではなく、分割して作成すべきだったように思います。 3)構成について >NL-SAS RAID6 構成において、該当環境が担保できるだけの性能見積もりってされているのでしょうか? >【NL-SAS 遅い】 + 【RAID6 遅い】 の組み合わせなので少し心配です。 >(同じような環境でストレスなく動作したという実績だけでもあるのでしょうか?) 構成の見積もりを行った者からは、動作する想定だという話でした。 ただ、構築チーム内ではQNAPのストレージについても、Hyper-VやWSFCの環境構築についても、 全く構築実績がなく、調べながら行っています。 4)他気になる点 >・仮想ディスクはシンプロビジョニングですか? すべてシックプロビジョニングで作成しています。 >・ディスク装置側ファームウェアは最新でしょうか? 導入時点で最新のものを適用していますが、 現時点の最新ではありません。 すぐに更新という事はできませんが、 改めて最新版を適用することも検討しています。 >・チェックポイントは全て削除していますか? チェックポイントへの認識が誤っていた事に トラブルが発生してから気付きまして、 現在ではすべて削除しております。 削除の際にはエラーなどは発生しませんでした。 >・システムイベントログには関連するエラーは出ていない 物理、仮想共に確認しました。 アプリケーションログにも関連するログはありませんでした。 >・サーバ側 iSCSIで使用している搭載NICの型番教えて頂けますでしょうか。 サーバがiSCSIで使用しているNICは下記の製品です。 型番:49Y7960 (intel X520 デュアルポート 10GbE SFP+ アダプター) >取り急ぎ、この状況であれば、私なら、まずは物理サーバ/仮想サーバのパフォーマンスモニタでディスクI/Oを確認します。 >ここから、書き込み遅延が発生しているかを確認できるはずです。 物理サーバ上ではFドライブのI/Oが0KB/秒~70KB/秒を周期的に上下しています。 この状態がユーザーの言う「動きが悪い」にあたるのだと思います。 画面キャプチャは取得しましたので、抜き出せたらご覧いただけるようにします。 ご回答頂いた内容から構築や見積もりの段階からの問題が見えてきており、 後悔先に立たずを痛感しているところです。 何とか着地できるように方法を模索していきます。
over

2017/12/12 08:21 編集

すいません。詳細不明のため長々と可能性を記載しておりましたが、ご担当者様の以下の言葉があるのであれば、優先調査はsnapshot削除による動作不良に焦点を当てるべきと感じました。 > 仮想上で作業しているユーザーから「チェックポイントの削除前と削除後で明らかに動作が違う」 > という報告があり、調査を始めているという状況です。 性能云々は一先ず忘れてください。 ただ、スナップショット削除が原因とすると、Windowsブラックボックスに挑む必要があり茨の道と感じます。 まずはテスト用の新規仮想ゲスト(本番と同程度のリソースを割り当て)を構築し、事象が再現するか確認してみては如何でしょう? ※CPUがオーバーコミットになっているようなので、テスト仮想サーバ作成時は他仮想ゲストを停止した状態で実施する必要があります。 新規仮想サーバでも発生してしまうようであれば、ハード回り、または物理ホストOS回りへ疑いの目を向けることができると思います。 事象が再現しないのであれば、新規仮想ゲスト + 本番3台を起動して新規仮想ゲスト上で同様のテストを行います。 これで事象が再現するようであれば、ハードリソース不足が疑われます。
Utagoe33

2017/12/13 15:59

>>over様 引き続きご回答頂きありがとうございます。 明日、もとい本日試してみます。取り急ぎご報告と御礼まで。
Utagoe33

2017/12/14 07:23

>>over様 新規仮想マシンで同様のファイルコピーテストを行いました。 その結果、既存の仮想マシンと同様の書き込み停止現象が発生することを確認しました。 物理ホストOSに原因があるかどうかの切り分けの手段ですが バックアップ用のストレージに作成したリモート共有フォルダに対して 仮想上でファイルコピーを行い、ホストのリソースを使用しない場合の 書き込み成否や速度を確認したいと思っています。
over

2017/12/14 08:39

う~ん、新規仮想マシンでも同様ですか・・・この先は茨ですね。 1点状況確認です。 仮想ホスト iSCSI側インターフェース(以前回答頂いたintel X520 デュアルポート 10GbE SFP+ アダプターとの認識ですが間違いないですか?)に関して以下ご回答頂きたく。 ・チーミング構成ですか? ・チーミングだった場合、チーミングモードは何でしょう? ・スイッチ経由で接続していますか?それとも外部ストレージ直収ですか? ・スイッチ経由だった場合、スイッチ側は10G対応品でしょうか? ・スイッチ経由かつチーミング構成だった場合、スイッチ側のリンクアグリゲーションモードは何でしょうか? で、1点試して頂きたく。 仮想ホスト iSCSI側インターフェースでSNPが有効化(ネットワーク処理をホストハードウェアではなくNIC単体で行うもの)になっていた場合、逆に性能劣化に繋がる事例が散見されます。 こちら無効にして改善するか確認してみては如何でしょうか。 検索サイトで「SNP 無効化」で検索してみるとご期待のサイトが見つかると思います。 ちなみに以下「挙動が違う」の詳細は掴んでいますか? > 仮想上で作業しているユーザーから「チェックポイントの削除前と削除後で明らかに動作が違う」 > という報告があり、調査を始めているという状況です。 これが解決の拠り所となる場合もあります。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問