drbd_resource設定

filesystemの自動切り替えを検証するためprimaryにshutdownをかけてますが、seconday->primary
のアクションが起きてないです。

primaryをshutdownした時にsyslogからこんなwarningが出てます。

syslogのwarning

Jul 21 22:16:52 drbd04 pengine[5181]:  warning: unpack_rsc_op: Processing failed op start for prm_drbd_r0:0 on drbd01: unknown error (1)

unknown errorと出てますが、、何を見ればいいのかがわからない状況です。
とりあえず僕のcrm設定を見なおしていますが、怪しいのはこのdrbd_resourceの値です。

僕のcrm設定は以下のとおりです。

primitive prm_drbd_r0 ocf:linbit:drbd \
        params drbd_resource=r0 \
        op monitor interval=30 role=Master timeout=30 \
        op monitor interval=40 role=Slave timeout=30 \
        op start interval=0 timeout=240 \
        op stop interval=0 timeout=100

ここで私はdrbd_resourceをr0に設定してますが、この値は
drbd.confに設定したresource名という認識で合ってますか？

/etc/drbd.conf

include "drbd.d/global_common.conf";
include "drbd.d/*.res";

/etc/drbd.d/rc0.res

resource r0 {
        protocol C;
        startup {
                wfc-timeout  15;
                degr-wfc-timeout 60;
        }
        net {
                cram-hmac-alg sha1;
                shared-secret "secret";
        }
        on drbd04 {
                device /dev/drbd0;
                disk /dev/xvdh1;
                address 10.200.0.238:7788;
                meta-disk internal;
        }
        on drbd01 {
                device /dev/drbd0;
                disk /dev/xvdh1;
                address 10.200.0.218:7788;
                meta-disk internal;
        }
}

行動規範の内容に同意します

回答1件

ここで私はdrbd_resourceをr0に設定してますが、この値は
drbd.confに設定したresource名という認識で合ってますか？

そのはずです。

unknown errorと出てますが、、何を見ればいいのかがわからない状況です。

drbd04 と drbd01 のどちらがプライマリだったのでしょうか？
そのログから20行ぐらい上までも一緒に見せてもらっていいですか？
cat /proc/drbd はどのような出力になりますか？

投稿2015/07/21 14:58

ngyuki

総合スコア4516

Kimsehwa

2015/07/22 01:31

回答ありがとうございます。！ drbd01がprimary、drbd04がsecondaryです。この状態でdrbd01のサーバを落とします。 drbd04から前述したログが出ます。 drbd01を落とす前 drbd04(secondary) root@drbd04:~# cat /proc/drbd version: 9.0.0 (api:2/proto:86-110) GIT-hash: e0e3bc833053a0ed6b4b593b32e40223a9373fb7 build by nasa@ip-10-200-0-238, 2015-07-07 19:12:28 Transports (api:8): tcp (1.0.0) root@drbd04:~# drbdadm status r0 role:Secondary disk:UpToDate drbd01 role:Primary peer-disk:Diskless drbd01(primary) cat /proc/drbd version: 9.0.0 (api:2/proto:86-110) GIT-hash: e0e3bc833053a0ed6b4b593b32e40223a9373fb7 build by nasa@ip-10-200-0-218, 2015-07-14 20:59:34 Transports (api:8): tcp (1.0.0) root@drbd01:~# drbdadm status r0 role:Primary disk:Diskless drbd04 role:Secondary peer-disk:UpToDate drbd01サーバを落とした後 drbd04 root@drbd04:~# cat /proc/drbd version: 9.0.0 (api:2/proto:86-110) GIT-hash: e0e3bc833053a0ed6b4b593b32e40223a9373fb7 build by nasa@ip-10-200-0-238, 2015-07-07 19:12:28 Transports (api:8): tcp (1.0.0) root@drbd04:~# drbdadm status r0 role:Secondary disk:UpToDate drbd01 connection:Connecting (drbd01を落とした瞬間のdrbd04から出たログのすべてです。 tail -f /var/log/syslog Jul 22 10:27:42 drbd04 crmd[5182]: warning: match_down_event: No match for shutdown action on 2 Jul 22 10:27:42 drbd04 crmd[5182]: notice: peer_update_callback: Stonith/shutdown of drbd01 not matched Jul 22 10:27:42 drbd04 crmd[5182]: notice: do_state_transition: State transition S_IDLE -> S_POLICY_ENGINE [ input=I_PE_CALC cause=C_FSA_INTERNAL origin=abort_transition_graph ] Jul 22 10:27:42 drbd04 corosync[5157]: [TOTEM ] A new membership (10.200.0.238:496) was formed. Members left: 2 Jul 22 10:27:42 drbd04 corosync[5157]: [QUORUM] Members[1]: 1 Jul 22 10:27:42 drbd04 pacemakerd[5175]: notice: crm_update_peer_state: pcmk_quorum_notification: Node drbd01[2] - state is now lost (was member) Jul 22 10:27:42 drbd04 crmd[5182]: notice: crm_update_peer_state: pcmk_quorum_notification: Node drbd01[2] - state is now lost (was member) Jul 22 10:27:42 drbd04 crmd[5182]: warning: match_down_event: No match for shutdown action on 2 Jul 22 10:27:42 drbd04 crmd[5182]: notice: peer_update_callback: Stonith/shutdown of drbd01 not matched Jul 22 10:27:42 drbd04 corosync[5157]: [MAIN ] Completed service synchronization, ready to provide service. Jul 22 10:27:42 drbd04 kernel: [51092.655958] drbd r0 drbd01: peer( Primary -> Secondary ) Jul 22 10:27:42 drbd04 kernel: [51092.655998] drbd r0 drbd01: Preparing remote state change 1660616923 (primary_nodes=0, weak_nodes=0) Jul 22 10:27:42 drbd04 kernel: [51092.656151] drbd r0 drbd01: Committing remote state change 1660616923 Jul 22 10:27:42 drbd04 kernel: [51092.656163] drbd r0 drbd01: conn( Connected -> TearDown ) peer( Secondary -> Unknown ) Jul 22 10:27:42 drbd04 kernel: [51092.656165] drbd r0/0 drbd0 drbd01: pdsk( Diskless -> DUnknown ) repl( Established -> Off ) Jul 22 10:27:42 drbd04 kernel: [51092.656192] drbd r0 drbd01: ack_receiver terminated Jul 22 10:27:42 drbd04 kernel: [51092.656194] drbd r0 drbd01: Terminating ack_recv thread Jul 22 10:27:42 drbd04 kernel: [51092.676145] drbd r0 drbd01: Connection closed Jul 22 10:27:42 drbd04 kernel: [51092.676170] drbd r0 drbd01: conn( TearDown -> Unconnected ) Jul 22 10:27:42 drbd04 kernel: [51092.676184] drbd r0 drbd01: Restarting receiver thread Jul 22 10:27:42 drbd04 kernel: [51092.676195] drbd r0 drbd01: conn( Unconnected -> Connecting ) Jul 22 10:27:43 drbd04 pengine[5181]: notice: unpack_config: On loss of CCM Quorum: Ignore Jul 22 10:27:43 drbd04 pengine[5181]: warning: unpack_rsc_op: Processing failed op start for prm_drbd_r0:0 on drbd04: unknown error (1) Jul 22 10:27:43 drbd04 pengine[5181]: error: unpack_rsc_op: Preventing clone_pingd from re-starting on drbd04: operation monitor failed 'invalid parameter' (rc=2) Jul 22 10:27:43 drbd04 pengine[5181]: warning: common_apply_stickiness: Forcing ms_drbd_r0 away from drbd01 after 1000000 failures (max=1) Jul 22 10:27:43 drbd04 pengine[5181]: warning: common_apply_stickiness: Forcing ms_drbd_r0 away from drbd01 after 1000000 failures (max=1) Jul 22 10:27:43 drbd04 pengine[5181]: warning: common_apply_stickiness: Forcing ms_drbd_r0 away from drbd04 after 1000000 failures (max=1) Jul 22 10:27:43 drbd04 pengine[5181]: warning: common_apply_stickiness: Forcing ms_drbd_r0 away from drbd04 after 1000000 failures (max=1) Jul 22 10:27:43 drbd04 pengine[5181]: notice: process_pe_message: Calculated Transition 56: /var/lib/pacemaker/pengine/pe-input-50.bz2 Jul 22 10:27:43 drbd04 crmd[5182]: notice: run_graph: Transition 56 (Complete=0, Pending=0, Fired=0, Skipped=0, Incomplete=0, Source=/var/lib/pacemaker/pengine/pe-input-50.bz2): Complete Jul 22 10:27:43 drbd04 crmd[5182]: notice: do_state_transition: State transition S_TRANSITION_ENGINE -> S_IDLE [ input=I_TE_SUCCESS cause=C_FSA_INTERNAL origin=notify_crmd ] なにかヒントになれることがありましたら教えてください！

ngyuki

2015/07/22 02:16

drbd 9 でしたか・・drbd 8 しか使ったこと無いので見当違いかもしれませんが・・ drbdadm status で drbd01 が disk:Diskless になっていますがなぜでしょうか？ drbd01 でディスク障害が発生したケースを検証しているのでしょうか？（多分関係ないと思いますけれども） crm で drbd は master/slave 型のリソースになっていますか？ ocf:linbit:drbd は master/slave 型のリソースにする必要があったと思います。 > unpack_rsc_op: Processing failed op start for prm_drbd_r0:0 on drbd04: unknown error (1) このエラーは、おそらく drbd04 で drbd リソースを start しようとして OCF_ERR_GENERIC でコケているということだと思うのですが・・・master/slave 型のリソースなら、そのタイミングで行われるのは promote であって start ではないような気がします。

行動規範の内容に同意します