質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.76%

  • Windows Server

    352questions

    Windows Serverとは、Microsoft社のサーバ用オペレーティングシステムの総称です。 企業内ネットワークなどで利用されるサーバ機へ導入することを想定して開発されているため高い安定性があり、 管理機能を提供するソフトウェアが多く含まれています。

  • ストレージ

    7questions

【WindowsServer2012R2/QNAP】ストレージの特定ボリュームに対する書き込みが事実上停止してしまう症状

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 280

Utagoe33

score 1

お世話になります。

【困っている事】
WindowsServer2台でクラスターを構成しており、その上で仮想マシンが4台稼働しています。
仮想マシンのHDDファイルの保存先としてQNAPのストレージをiSCSI接続で使用していて、
OS領域(Cドライブ)とデータ領域(Dドライブ以降)にボリュームを分けているのですが、
Dドライブ以降への書き込み時に、書き込みが遮断されているかのような現象が発生しています。

具体的には、10GBのデータを仮想マシンのFドライブに対してコピーしようとすると、
70%完了時点で突然転送速度が0付近まで落ち込み、それ以上殆ど進行しなくなります。

7GBまでのデータでは99%完了時点で転送速度が0付近に落ち込み、
その後、残り1%をわずかな転送速度で完了まで進行します。
なお、書き込み完了後、10~20秒前後仮想マシンのエクスプローラーが反応なしになることがあります。

サイズか、時間経過かわかりませんが、何かしらの要因で書き込みが遮られているように感じています。
これらの症状はGUI操作でのコピーでもコマンドからのコピーでも同様に発生します。
ストレージの代理店やメーカーにも問合せをして診断ツールからのログなどを送っておりますが、
ログの解析は2,3日かかるという事なのでその間に出来る事をしたいと思っています。

切っ掛けとして考えられる事は、Hyper-Vのチェックポイント機能の影響で
差分ファイルがボリュームの割り当て容量をオーバーし、仮想マシンが停止したために、
チェックポイントを削除して復旧したのですが、それ以降で発生しています。

仮想マシン上ではソフトウェアのインストールやファイルの配置などの作業が行われていて
書き込み遮断の症状がネックになっている状態で、可能な限り早急に対応したいと考えています。

以下に情報をまとめましたので、お知恵をお貸し頂ければ幸甚です。

【環境】
・物理サーバ(2台とも同じ構成でクラスター化しています)
モデル:Lenovo SystemX 3550 M5
OS:WindowsServer2012R2
CPU:Intel(R)Xeon(R)CPU E5-2650 v4 @2.20Ghz 12×1
メモリ:80GB
システム:64bit
Windowsアップデート:2017/11/8時点で最新
ファイアウォール:無効
インストール:Hyper-V、WindowsServerFailoverCluster(以下WSFC)

・仮想サーバ(4台とも同じ構成でWSFCの役割に登録しています)
OS:WindowsServer2012R2
CPU:Intel(R)Xeon(R)CPU E5-2650 v4 @2.20Ghz 4×1
メモリ:16GB
システム:64bit
Windowsアップデート:2017/11/8時点で最新
ファイアウォール:無効
インストール:McAfee(MOVE AV Multi-Platform),SQLServer2014

・ストレージ
モデル:QNAP ES1640DC V2
ファームウェア:v1.1.4(2017/11/02)
ディスク:HGST HUS726040AL5210(NL-SAS)4GB×15
RAID:6
HS:2本
使用可能な総容量:36.6TB
コントローラー:AとBの2つで構成され、障害が発生すると切り替わる想定

・ストレージ領域の構成
RAIDグループの数:1
RAIDグループ内に作成したLUNの数:3
LUNの役割と割り当て容量
・仮想マシンのCドライブ用(2.0TB 容量固定 圧縮なし)
・クォーラム監視ディスク用(10GB 容量固定 圧縮なし)
・仮想マシンのDドライブ以降用(33TB 容量固定 圧縮なし)

【ストレージの状態】
・ストレージプールのあるコントローラーAのCPU、メモリ使用率が常時70%から90%と高い(原因不明)
・現象が発生して以降、Web管理画面の反応が非常に悪くなっている(おそらく高負荷の影響)
・書き込みが遮断される症状はDドライブ以降で使用している領域でのみ発生している
・Cドライブへの書き込みは問題なく完了する
・ホストマシンからLUNへの書き込みは完了する(ディスク作成など)
・システムイベントログには関連するエラーは出ていない
・書き込みにはiSCSI用のLANが使用されている(管理用のLANを抜いても書き込みできる)

以上、把握している範囲で記載したつもりですが、
気になる点などありましたらご指摘ください。

何卒よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

+1

本来は[追記/修正依頼]に記載すべき内容ですが、確認事項が多数あるため回答欄に記載します。
あくまで切り分けの思想のみを記載するものとし回答でないこと、ご容赦ください。

1)切っ掛けについて

切っ掛けとして考えられる事は、Hyper-Vのチェックポイント機能の影響で

切っ掛けが上記とありますが、それ以前は再現率0%でしょうか?
そうだったとして、ご質問文から該当環境は構築途上と見受けられますが、サービスが実装されてきたから遅くなったという可能性は排除できていますか?
また、iSCSI構成とのことで、構成によってはネットワークの影響を受けることもあります。

2)トリガについて

具体的には、10GBのデータを仮想マシンのFドライブに対してコピーしようとすると、
70%完了時点で突然転送速度が0付近まで落ち込み、それ以上殆ど進行しなくなります。

これを見る限りだと、ディスクI/Oボトルネック(主にディスク装置側キャッシュ)の可能性が高い気がします。

・ストレージプールのあるコントローラーAのCPU、メモリ使用率が常時70%から90%と高い(原因不明)
・現象が発生して以降、Web管理画面の反応が非常に悪くなっている(おそらく高負荷の影響)

上記もその一因では?

ただ、Cドライブで再現していないのがおかしいですね。

ちなみに、これをコントローラAとコントローラBの分散構成にできないのでしょうか?
ストレージ製品で2コントローラ製としているのであれば冗長以外に分散処理を実装していると思われますが。
ディスクグループまたはLUN毎に所属するコントローラが指定できたりしませんか?

3)構成について
NL-SAS RAID6 構成において、該当環境が担保できるだけの性能見積もりってされているのでしょうか?
【NL-SAS 遅い】 + 【RAID6 遅い】 の組み合わせなので少し心配です。
(同じような環境でストレスなく動作したという実績だけでもあるのでしょうか?)

4)他気になる点
・仮想ディスクはシンプロビジョニングですか?
→そうでない場合、新規領域を増やす場合に負荷が増大します。
・ディスク装置側ファームウェアは最新でしょうか?
→ ファームウェアのバグの可能性も考えられます。
・チェックポイントは全て削除していますか?
→ チェックポイントは便利な機能ですが、チェックポイントからの差分を全て記録していくため、ディスク容量の増加、ディスクI/Oの発生を生みます。私は運用フェーズに入ってからのチェックポイント運用はNGと考えています。
・チェックポイントを削除したとありますが、こちらはエラーなく削除できたのでしょうか。
・システムイベントログには関連するエラーは出ていない
→ こちらは、物理/仮想共にですか?またアプリケーションログも確認すべきです。
・サーバ側 iSCSIで使用している搭載NICの型番教えて頂けますでしょうか。

取り急ぎ、この状況であれば、私なら、まずは物理サーバ/仮想サーバのパフォーマンスモニタでディスクI/Oを確認します。
ここから、書き込み遅延が発生しているかを確認できるはずです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/12 12:21

    >>over様

    詳細にコメント頂きありがとうございます。

    1)切っ掛けについて
    >切っ掛けが上記とありますが、それ以前は再現率0%でしょうか?
    >そうだったとして、ご質問文から該当環境は構築途上と見受けられますが、
    >サービスが実装されてきたから遅くなったという可能性は排除できていますか?

    現在の状況をご説明しますと、物理的な構築が終了し、仮想上の構築が進んでいる段階です。

    サービスが実装されてきたために遅くなった可能性についてですが、完全に排除できていません。
    仮想上で作業しているユーザーから「チェックポイントの削除前と削除後で明らかに動作が違う」
    という報告があり、調査を始めているという状況です。

    >また、iSCSI構成とのことで、構成によってはネットワークの影響を受けることもあります。
    iSCSIの通信には10GbEの光回線を使用していますので、
    ネットワークの影響については運用に堪え得ると思っています。

    2)トリガについて
    >これを見る限りだと、ディスクI/Oボトルネック(主にディスク装置側キャッシュ)の可能性が高い気がします。
    調べきれていませんが、I/Oが頻繁に発生しているDドライブ以降でのみ発生していることを考えると、
    可能性は高いと思っています。

    >ちなみに、これをコントローラAとコントローラBの分散構成にできないのでしょうか?
    >ストレージ製品で2コントローラ製としているのであれば冗長以外に分散処理を実装していると思われますが。
    >ディスクグループまたはLUN毎に所属するコントローラが指定できたりしませんか?
    冗長しか意識しておりませんでした。
    今から分散構成に変更できるか調べてみましたが、
    ディスク容量の殆どが割り当て済になっているために、
    ストレージプールを新規に作成する為の容量が確保できませんでした。
    LUNに関しても33TB一括ではなく、分割して作成すべきだったように思います。

    3)構成について
    >NL-SAS RAID6 構成において、該当環境が担保できるだけの性能見積もりってされているのでしょうか?
    >【NL-SAS 遅い】 + 【RAID6 遅い】 の組み合わせなので少し心配です。
    >(同じような環境でストレスなく動作したという実績だけでもあるのでしょうか?)
    構成の見積もりを行った者からは、動作する想定だという話でした。
    ただ、構築チーム内ではQNAPのストレージについても、Hyper-VやWSFCの環境構築についても、
    全く構築実績がなく、調べながら行っています。

    4)他気になる点
    >・仮想ディスクはシンプロビジョニングですか?
    すべてシックプロビジョニングで作成しています。
    >・ディスク装置側ファームウェアは最新でしょうか?
    導入時点で最新のものを適用していますが、
    現時点の最新ではありません。
    すぐに更新という事はできませんが、
    改めて最新版を適用することも検討しています。
    >・チェックポイントは全て削除していますか?
    チェックポイントへの認識が誤っていた事に
    トラブルが発生してから気付きまして、
    現在ではすべて削除しております。
    削除の際にはエラーなどは発生しませんでした。
    >・システムイベントログには関連するエラーは出ていない
    物理、仮想共に確認しました。
    アプリケーションログにも関連するログはありませんでした。
    >・サーバ側 iSCSIで使用している搭載NICの型番教えて頂けますでしょうか。
    サーバがiSCSIで使用しているNICは下記の製品です。
    型番:49Y7960 (intel X520 デュアルポート 10GbE SFP+ アダプター)

    >取り急ぎ、この状況であれば、私なら、まずは物理サーバ/仮想サーバのパフォーマンスモニタでディスクI/Oを確認します。
    >ここから、書き込み遅延が発生しているかを確認できるはずです。
    物理サーバ上ではFドライブのI/Oが0KB/秒~70KB/秒を周期的に上下しています。
    この状態がユーザーの言う「動きが悪い」にあたるのだと思います。
    画面キャプチャは取得しましたので、抜き出せたらご覧いただけるようにします。

    ご回答頂いた内容から構築や見積もりの段階からの問題が見えてきており、
    後悔先に立たずを痛感しているところです。

    何とか着地できるように方法を模索していきます。

    キャンセル

  • 2017/12/12 17:21 編集

    すいません。詳細不明のため長々と可能性を記載しておりましたが、ご担当者様の以下の言葉があるのであれば、優先調査はsnapshot削除による動作不良に焦点を当てるべきと感じました。
    > 仮想上で作業しているユーザーから「チェックポイントの削除前と削除後で明らかに動作が違う」
    > という報告があり、調査を始めているという状況です。

    性能云々は一先ず忘れてください。

    ただ、スナップショット削除が原因とすると、Windowsブラックボックスに挑む必要があり茨の道と感じます。

    まずはテスト用の新規仮想ゲスト(本番と同程度のリソースを割り当て)を構築し、事象が再現するか確認してみては如何でしょう?
    ※CPUがオーバーコミットになっているようなので、テスト仮想サーバ作成時は他仮想ゲストを停止した状態で実施する必要があります。

    新規仮想サーバでも発生してしまうようであれば、ハード回り、または物理ホストOS回りへ疑いの目を向けることができると思います。

    事象が再現しないのであれば、新規仮想ゲスト + 本番3台を起動して新規仮想ゲスト上で同様のテストを行います。
    これで事象が再現するようであれば、ハードリソース不足が疑われます。

    キャンセル

  • 2017/12/14 00:59

    >>over様

    引き続きご回答頂きありがとうございます。
    明日、もとい本日試してみます。取り急ぎご報告と御礼まで。

    キャンセル

  • 2017/12/14 16:23

    >>over様

    新規仮想マシンで同様のファイルコピーテストを行いました。
    その結果、既存の仮想マシンと同様の書き込み停止現象が発生することを確認しました。

    物理ホストOSに原因があるかどうかの切り分けの手段ですが
    バックアップ用のストレージに作成したリモート共有フォルダに対して
    仮想上でファイルコピーを行い、ホストのリソースを使用しない場合の
    書き込み成否や速度を確認したいと思っています。

    キャンセル

  • 2017/12/14 17:39

    う~ん、新規仮想マシンでも同様ですか・・・この先は茨ですね。
    1点状況確認です。
    仮想ホスト iSCSI側インターフェース(以前回答頂いたintel X520 デュアルポート 10GbE SFP+ アダプターとの認識ですが間違いないですか?)に関して以下ご回答頂きたく。
    ・チーミング構成ですか?
    ・チーミングだった場合、チーミングモードは何でしょう?
    ・スイッチ経由で接続していますか?それとも外部ストレージ直収ですか?
    ・スイッチ経由だった場合、スイッチ側は10G対応品でしょうか?
    ・スイッチ経由かつチーミング構成だった場合、スイッチ側のリンクアグリゲーションモードは何でしょうか?

    で、1点試して頂きたく。
    仮想ホスト iSCSI側インターフェースでSNPが有効化(ネットワーク処理をホストハードウェアではなくNIC単体で行うもの)になっていた場合、逆に性能劣化に繋がる事例が散見されます。
    こちら無効にして改善するか確認してみては如何でしょうか。
    検索サイトで「SNP 無効化」で検索してみるとご期待のサイトが見つかると思います。

    ちなみに以下「挙動が違う」の詳細は掴んでいますか?
    > 仮想上で作業しているユーザーから「チェックポイントの削除前と削除後で明らかに動作が違う」
    > という報告があり、調査を始めているという状況です。

    これが解決の拠り所となる場合もあります。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.76%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

  • 受付中

    Linuxを使用したWebサーバーを構築したいです

    Linuxを使用したwebサーバーを構築したいです。 正確には、専用サーバーを借りてwebサイトを運営したいのですが、専用サーバーを操作するにはある程度専門的な知識が必要とのこと

  • 解決済

    仮想マシンのメモリについて

    HDDなどは割り当てた分だけホスト側のHDDの容量がその分仮想に割り当てられるから減りますよね。 メモリも同じなのでしょうか? 例えば、16GBのホストを使用してて、仮想マシンに

  • 解決済

    仮想化について

    仮想化で、ハイパーバイザとコンテナの二つがありますが、オーバーヘッドの比較について知りたいことがあります。 ハイパーバイザはHyper-V、コンテナはDocker(Windo

  • 受付中

    VirutalBoxのファイルは外部媒体に移動してそこから起動できますか。

    Virtual Boxの初歩的な機能しか知らない者です。 MacでVirtual Boxのディスクイメージファイルなどで HDDの容量が逼迫しています。 外付けのHD

  • 解決済

    linux vm と Windows Subsystemの違い

    題名のとおりですが、 windowsにlinuxのvmを入れるのと、windows subsystem for  linuxを有効にするのではどう違ってきますか?

  • 解決済

    サーバーマシンの選定

    サーバマシンを購入しようと思っています。 初めてサーバを運用するのでどのようなものを選んでいいかわからず困っています。 想定している環境は OS        : ubuntu o

  • 受付中

    Azureのディスク速度の遅さ、どうにかなりませんか?

    Azure初心者です。 オンプレミスで動いているSQL ServerをAzureに動かしたいので、ディスク速度を計測しています。 残念ながら、SQL Databaseは使えそう

  • 受付中

    High Sierra, APFS でのバックアップ、コピー

    こんにちは。macOS, High Sierra のインストールを、まだ行っていません。 事前に、バックアップ(ファイル、フォルダーのコピー)のことを知りたいのです。 新しく採

同じタグがついた質問を見る

  • Windows Server

    352questions

    Windows Serverとは、Microsoft社のサーバ用オペレーティングシステムの総称です。 企業内ネットワークなどで利用されるサーバ機へ導入することを想定して開発されているため高い安定性があり、 管理機能を提供するソフトウェアが多く含まれています。

  • ストレージ

    7questions