質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.07%

【WindowsServer2012R2/QNAP】ストレージの特定ボリュームに対する書き込みが事実上停止してしまう症状

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 1,219

Utagoe33

score 5

お世話になります。

【困っている事】
WindowsServer2台でクラスターを構成しており、その上で仮想マシンが4台稼働しています。
仮想マシンのHDDファイルの保存先としてQNAPのストレージをiSCSI接続で使用していて、
OS領域(Cドライブ)とデータ領域(Dドライブ以降)にボリュームを分けているのですが、
Dドライブ以降への書き込み時に、書き込みが遮断されているかのような現象が発生しています。

具体的には、10GBのデータを仮想マシンのFドライブに対してコピーしようとすると、
70%完了時点で突然転送速度が0付近まで落ち込み、それ以上殆ど進行しなくなります。

7GBまでのデータでは99%完了時点で転送速度が0付近に落ち込み、
その後、残り1%をわずかな転送速度で完了まで進行します。
なお、書き込み完了後、10~20秒前後仮想マシンのエクスプローラーが反応なしになることがあります。

サイズか、時間経過かわかりませんが、何かしらの要因で書き込みが遮られているように感じています。
これらの症状はGUI操作でのコピーでもコマンドからのコピーでも同様に発生します。
ストレージの代理店やメーカーにも問合せをして診断ツールからのログなどを送っておりますが、
ログの解析は2,3日かかるという事なのでその間に出来る事をしたいと思っています。

切っ掛けとして考えられる事は、Hyper-Vのチェックポイント機能の影響で
差分ファイルがボリュームの割り当て容量をオーバーし、仮想マシンが停止したために、
チェックポイントを削除して復旧したのですが、それ以降で発生しています。

仮想マシン上ではソフトウェアのインストールやファイルの配置などの作業が行われていて
書き込み遮断の症状がネックになっている状態で、可能な限り早急に対応したいと考えています。

以下に情報をまとめましたので、お知恵をお貸し頂ければ幸甚です。

【環境】
・物理サーバ(2台とも同じ構成でクラスター化しています)
モデル:Lenovo SystemX 3550 M5
OS:WindowsServer2012R2
CPU:Intel(R)Xeon(R)CPU E5-2650 v4 @2.20Ghz 12×1
メモリ:80GB
システム:64bit
Windowsアップデート:2017/11/8時点で最新
ファイアウォール:無効
インストール:Hyper-V、WindowsServerFailoverCluster(以下WSFC)

・仮想サーバ(4台とも同じ構成でWSFCの役割に登録しています)
OS:WindowsServer2012R2
CPU:Intel(R)Xeon(R)CPU E5-2650 v4 @2.20Ghz 4×1
メモリ:16GB
システム:64bit
Windowsアップデート:2017/11/8時点で最新
ファイアウォール:無効
インストール:McAfee(MOVE AV Multi-Platform),SQLServer2014

・ストレージ
モデル:QNAP ES1640DC V2
ファームウェア:v1.1.4(2017/11/02)
ディスク:HGST HUS726040AL5210(NL-SAS)4GB×15
RAID:6
HS:2本
使用可能な総容量:36.6TB
コントローラー:AとBの2つで構成され、障害が発生すると切り替わる想定

・ストレージ領域の構成
RAIDグループの数:1
RAIDグループ内に作成したLUNの数:3
LUNの役割と割り当て容量
・仮想マシンのCドライブ用(2.0TB 容量固定 圧縮なし)
・クォーラム監視ディスク用(10GB 容量固定 圧縮なし)
・仮想マシンのDドライブ以降用(33TB 容量固定 圧縮なし)

【ストレージの状態】
・ストレージプールのあるコントローラーAのCPU、メモリ使用率が常時70%から90%と高い(原因不明)
・現象が発生して以降、Web管理画面の反応が非常に悪くなっている(おそらく高負荷の影響)
・書き込みが遮断される症状はDドライブ以降で使用している領域でのみ発生している
・Cドライブへの書き込みは問題なく完了する
・ホストマシンからLUNへの書き込みは完了する(ディスク作成など)
・システムイベントログには関連するエラーは出ていない
・書き込みにはiSCSI用のLANが使用されている(管理用のLANを抜いても書き込みできる)

以上、把握している範囲で記載したつもりですが、
気になる点などありましたらご指摘ください。

何卒よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

+1

本来は[追記/修正依頼]に記載すべき内容ですが、確認事項が多数あるため回答欄に記載します。
あくまで切り分けの思想のみを記載するものとし回答でないこと、ご容赦ください。

1)切っ掛けについて

切っ掛けとして考えられる事は、Hyper-Vのチェックポイント機能の影響で

切っ掛けが上記とありますが、それ以前は再現率0%でしょうか?
そうだったとして、ご質問文から該当環境は構築途上と見受けられますが、サービスが実装されてきたから遅くなったという可能性は排除できていますか?
また、iSCSI構成とのことで、構成によってはネットワークの影響を受けることもあります。

2)トリガについて

具体的には、10GBのデータを仮想マシンのFドライブに対してコピーしようとすると、
70%完了時点で突然転送速度が0付近まで落ち込み、それ以上殆ど進行しなくなります。

これを見る限りだと、ディスクI/Oボトルネック(主にディスク装置側キャッシュ)の可能性が高い気がします。

・ストレージプールのあるコントローラーAのCPU、メモリ使用率が常時70%から90%と高い(原因不明)
・現象が発生して以降、Web管理画面の反応が非常に悪くなっている(おそらく高負荷の影響)

上記もその一因では?

ただ、Cドライブで再現していないのがおかしいですね。

ちなみに、これをコントローラAとコントローラBの分散構成にできないのでしょうか?
ストレージ製品で2コントローラ製としているのであれば冗長以外に分散処理を実装していると思われますが。
ディスクグループまたはLUN毎に所属するコントローラが指定できたりしませんか?

3)構成について
NL-SAS RAID6 構成において、該当環境が担保できるだけの性能見積もりってされているのでしょうか?
【NL-SAS 遅い】 + 【RAID6 遅い】 の組み合わせなので少し心配です。
(同じような環境でストレスなく動作したという実績だけでもあるのでしょうか?)

4)他気になる点
・仮想ディスクはシンプロビジョニングですか?
→そうでない場合、新規領域を増やす場合に負荷が増大します。
・ディスク装置側ファームウェアは最新でしょうか?
→ ファームウェアのバグの可能性も考えられます。
・チェックポイントは全て削除していますか?
→ チェックポイントは便利な機能ですが、チェックポイントからの差分を全て記録していくため、ディスク容量の増加、ディスクI/Oの発生を生みます。私は運用フェーズに入ってからのチェックポイント運用はNGと考えています。
・チェックポイントを削除したとありますが、こちらはエラーなく削除できたのでしょうか。
・システムイベントログには関連するエラーは出ていない
→ こちらは、物理/仮想共にですか?またアプリケーションログも確認すべきです。
・サーバ側 iSCSIで使用している搭載NICの型番教えて頂けますでしょうか。

取り急ぎ、この状況であれば、私なら、まずは物理サーバ/仮想サーバのパフォーマンスモニタでディスクI/Oを確認します。
ここから、書き込み遅延が発生しているかを確認できるはずです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/14 00:59

    >>over様

    引き続きご回答頂きありがとうございます。
    明日、もとい本日試してみます。取り急ぎご報告と御礼まで。

    キャンセル

  • 2017/12/14 16:23

    >>over様

    新規仮想マシンで同様のファイルコピーテストを行いました。
    その結果、既存の仮想マシンと同様の書き込み停止現象が発生することを確認しました。

    物理ホストOSに原因があるかどうかの切り分けの手段ですが
    バックアップ用のストレージに作成したリモート共有フォルダに対して
    仮想上でファイルコピーを行い、ホストのリソースを使用しない場合の
    書き込み成否や速度を確認したいと思っています。

    キャンセル

  • 2017/12/14 17:39

    う~ん、新規仮想マシンでも同様ですか・・・この先は茨ですね。
    1点状況確認です。
    仮想ホスト iSCSI側インターフェース(以前回答頂いたintel X520 デュアルポート 10GbE SFP+ アダプターとの認識ですが間違いないですか?)に関して以下ご回答頂きたく。
    ・チーミング構成ですか?
    ・チーミングだった場合、チーミングモードは何でしょう?
    ・スイッチ経由で接続していますか?それとも外部ストレージ直収ですか?
    ・スイッチ経由だった場合、スイッチ側は10G対応品でしょうか?
    ・スイッチ経由かつチーミング構成だった場合、スイッチ側のリンクアグリゲーションモードは何でしょうか?

    で、1点試して頂きたく。
    仮想ホスト iSCSI側インターフェースでSNPが有効化(ネットワーク処理をホストハードウェアではなくNIC単体で行うもの)になっていた場合、逆に性能劣化に繋がる事例が散見されます。
    こちら無効にして改善するか確認してみては如何でしょうか。
    検索サイトで「SNP 無効化」で検索してみるとご期待のサイトが見つかると思います。

    ちなみに以下「挙動が違う」の詳細は掴んでいますか?
    > 仮想上で作業しているユーザーから「チェックポイントの削除前と削除後で明らかに動作が違う」
    > という報告があり、調査を始めているという状況です。

    これが解決の拠り所となる場合もあります。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.07%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る