ネットワーク通信が途切れる
受付中
回答 2
投稿
- 評価
- クリップ 0
- VIEW 4,767
VMWARE Vcenter6で運用している一部のインスタンスで早朝AM5:00~5:02にかけてLVSのkeepaliveでマスタ・スレーブが切り替わった事を検知するアラートを検知しています
原因を調査するためにtcpdumpを仕込みましたところ、早朝AM5:00~5:02にかけて下記のログが出ていました
ARP, Reverse Request who-is xx:xx:xx:xx:xx:xx (oui Unknown) tell xx:xx:xx:xx:xx:xx (oui Unknown), length 46
oui Unknownのログは下記のように他の時間帯でも出ていますが、arpリクエストに対してreplyを返しているように見えますので問題はないのかと考えています
04:56:22.666906 ARP, Reply サーバホスト名 is-at xx:xx:xx:xx:xx:xx (oui Unknown), length 28
また、早朝AM5:00~5:02のアラートは毎朝ではありません。週に2,3回程度で検知されています
なぜ、毎朝ではないのか?なぜ、AM5:00~AM5:02の間なのかについて明確な事はわかっていません
当該時間帯で処理されるVMWAREのバックアップ処理の時間帯を変更しても本事象は解消されませんでした
VMWARE Vcenter6のサーバを最近導入したばかりで、物理サーバ本体の問題なのか、VMスイッチNWの問題なのかの
切り分け作業も行った方がよろしいのでしょうか
このような内容で原因調査するにあたって、もっといい調査方法などがあるなど
ありましたら、ご回答頂けますと幸いです
よろしくお願い致します
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
0
LVSの使用経験無く、詳しくお答えできませんが以下のコンテンツを見つけました。
DELLのサーバでCentOS6でLVS+keepalivedなロードバランサを構築したらハマったりした話
後半にkeepalivedの遅延事象について載っているようです。ご参考までに。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
VMware 側についてはよく知らないので、仮想マシン側 keepalived についてコメントします。
tcpdump については、"tcpdump -nn proto 112" でキャプチャすると、advert_int 秒ごとに VRRP パケットが来ていることを確認できると思います(unicast_peer を設定していないならマルチキャスト)。
5:00AM〜5:02AM にネットワーク瞬断またはネットワーク帯域の飽和などで、BACKUP側に VRRP が届かなくなり、BACKUP→MASTER に昇格しているのだと推測します。
LVS, keepalived が稼働する仮想マシン側で、5:00AM に何か負荷(特にネットワーク負荷)がかかるプロセスが起動していないか、cron ジョブを確認ください。
(CentOS であれば、下記設定ファイル)
- /var/spool/cron/*
- /etc/anacrontab
- /etc/crontab
- /etc/cron.d/*
- /etc/cron.daily/*
また、sysstat が有効であれば、10分ごとの負荷の状況が /var/log/sa/sar05 などのファイルに出力されていると思います。
05:10 の値が、前後の 10分と比べて大きくないかどうか確認すると何かわかるかもしれません。
ネットワークなのか、他の要因なのか、など。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.37%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
suzukis
2016/04/11 10:48
VRRPのパケットの送受信状態はどうだったのでしょうか(keepalivedってVRRPでしたよね?)
tk_flavor
2016/04/11 12:12
VMのスナップショット作業の影響でarpパケット喪失で通信断のため対象リアルサーバとの通信が出来ない事からマスタスレーブの切替が何度も起こっていました