[Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて

Back to archive index

Masamichi Fukuda - elf-systems masamichi_fukud****@elf-s*****
2015年 3月 1日 (日) 12:09:00 JST


山内さん

福田です。
ご回答ありがとうございます。

今の状態は正常なんですね。
それでは明日、サービスネットワークを切って試してみたいと思います。

> crm設定ファイルのfencing_topologyの設定を見直してみた方がよいと思います。

fencing_topologyという設定はまだ入れていなかったです。
こちらを入れないと正しく動かないのでしょうか。

宜しくお願いします。

以上


2015年2月28日 7:41 <renay****@ybb*****>:

> 福田さん
>
> おはようございます。山内です。
>
> インターコネクト(10.0.17.X)が切れて、サービスネットワーク(192.168.17.X)が切れていない状態となっている
> と思いますので、stonith-helperは、1を返して失敗しているはずです。(正しい検知)
> その後、stonith-helperが失敗して、xen0,meatwareの順に実行が続くはずですので。。。
>
> crm設定ファイルのfencing_topologyの設定を見直してみた方がよいと思います。
>
> もしかすると、pacemaker1.1.7あたりでは、fencing_topologyが使えなかったかも?しれません・・・
>
> fencing_topologyあたりの処理は、かなり、pacemaker1.1.12まで修正が入って動くようになりましたので、
> pacemakerのバージョンアップも必要かも知れません。
>
> 以上です。
>
>
> ----- Original Message -----
> >From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>
> >To: linux****@lists*****
> >Date: 2015/2/27, Fri 21:04
> >Subject: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
> >
> >
> >お世話になります、福田と申します。
> >
> >debian Xen上で2ノードのクラスタシステムを構築して検証をしています。
> >Xen上でのstonith使用時のエラーについて質問させて頂きます。
> >
> >環境:
> >
> >Dom0はdebian7.7, Xen 4.1.4-3+deb7u3
> >DomUはdebian7.8, pacemaker 1.1.7-1, heartbeat 1:3.0.5-3
> >同一Dom0上にクラスタ2台を構築しています。
> >pacemaker,heartbeatはdebianパッケージでインストールしています。
> >stonith-helper,xen0,meatwareプラグインを使用
> >
> >ノード1(active)側のインターコネクト用LANインタフェースをダウンさせて、
> >スプリットブレインを発生させ、STONITHを行わせようとしています。
> >
> >両ノードのcrm_monでは下記のようにお互いをuncleanと表示しています。
> >
> >
> >ノード1側
> >Node lbv2.beta.com (82ffc36f-1ad8-8686-7db0-35686465c624): UNCLEAN (offl
> >ine)
> >Online: [ lbv1.beta.com ]
> >
> >ノード2側
> >Node lbv1.beta.com (38b0f200-83ea-8633-6f37-047d36cd39c6): UNCLEAN (offl
> >ine)
> >Online: [ lbv2.beta.com ]
> >
> >ところがエラーメッセージが次のようにでてしまいます。
> >
> >ノード1側
> >lbv1 [12657]: CRIT: external_reset_req: 'stonith-helper reset' for host
> lbv2.beta.com failed with rc 1
> >
> >ノード2側
> >lbv2 [22225]: CRIT: external_reset_req: 'stonith-helper reset' for host
> lbv1.beta.com failed with rc 1
> >
> >質問
> >この状態はSTONITHが動いておらず、stonith-helperのパラメータがおかしいのでしょうか?
> >
> >パラメータは次のようにしています。
> >
> >primitive Stonith1-1 stonith:external/stonith-helper \
> >    params \
> >        priority="1" \
> >        stonith-timeout="40" \
> >        hostlist="lbv1.beta.com" \
> >        dead_check_target="192.168.17.132 10.0.17.132" \
> >        standby_wait_time="10" \
> >        standby_check_command="/usr/sbin/crm_resource -r varnishd -W |
> grep -q `hostname`" \
> >    op start interval="0s" timeout="60s" on-fail="restart" \
> >    op monitor interval="3600s" timeout="60s" on-fail="restart" \
> >    op stop interval="0s" timeout="60s" on-fail="ignore"
> >
> >primitive Stonith2-1 stonith:external/stonith-helper \
> >    params \
> >        priority="1" \
> >        stonith-timeout="40" \
> >        hostlist="lbv2.beta.com" \
> >        dead_check_target="192.168.17.133 10.0.17.133" \
> >        standby_wait_time="10" \
> >        standby_check_command="/usr/sbin/crm_resource -r varnishd -W |
> grep -q `hostname`" \
> >    op start interval="0s" timeout="60s" on-fail="restart" \
> >    op monitor interval="3600s" timeout="60s" on-fail="restart" \
> >    op stop interval="0s" timeout="60s" on-fail="ignore"
> >
> >
> >192.168.17.0がサービス用、10.0.17.0がインターコネクト用に使用しているサブネットです。
> >
> >ログは下記の通りです。
> >
> >Feb 27 19:29:04 lbv1.beta.com stonith: [18566]: CRIT: external_reset_req
> >: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1
> >Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
> >Operation 'reboot' [18565] (call 0 from
> d2acf6a5-ef8d-4249-aaab-25a8686d6647) fo
> >r host 'lbv2.beta.com' with device 'Stonith2-1' returned: -2
> >Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
> >Stonith2-1: Performing: stonith -t external/stonith-helper -T reset lbv2.
> >-beta.com
> >Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
> >Stonith2-1: failed: lbv2.beta.com 5
> >Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: call_remote_ston
> >ith: Requesting that lbv1.beta.com perform op reboot lbv2.beta.c
> >om
> >Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
> >ith_device: Stonith2-1 can fence lbv2.beta.com: dynamic-list
> >Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
> >ith_device: Stonith2-2 can fence lbv2.beta.com: dynamic-list
> >Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
> >ith_device: Stonith2-3 can fence lbv2.beta.com: dynamic-list
> >Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: stonith_fence: F
> >ound 3 matching devices for 'lbv2.beta.com'
> >Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: stonith_command:
> > Processed st_fence from lbv1.beta.com: rc=-1
> >Feb 27 19:29:08 lbv1.beta.com crm_resource: [18790]: info: Invoked: /usr
> >/sbin/crm_resource -r varnishd -W
> >Feb 27 19:29:09 lbv1.beta.com stonith: [18706]: CRIT: external_reset_req
> >: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1
> >Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
> >Operation 'reboot' [18705] (call 0 from
> d2acf6a5-ef8d-4249-aaab-25a8686d6647) fo
> >r host 'lbv2.beta.com' with device 'Stonith2-1' returned: -2
> >Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
> >Stonith2-1: Performing: stonith -t external/stonith-helper -T reset lbv2.
> >-beta.com
> >Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
> >Stonith2-1: failed: lbv2.beta.com 5
> >Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: call_remote_ston
> >ith: Requesting that lbv1.beta.com perform op reboot lbv2.beta.c
> >om
> >Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
> >ith_device: Stonith2-1 can fence lbv2.beta.com: dynamic-list
> >Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
> >ith_device: Stonith2-2 can fence lbv2.beta.com: dynamic-list
> >Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
> >ith_device: Stonith2-3 can fence lbv2.beta.com: dynamic-list
> >Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: stonith_fence: F
> >ound 3 matching devices for 'lbv2.beta.com'
> >Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: stonith_command:
> > Processed st_fence from lbv1.beta.com: rc=-1
> >Feb 27 19:29:13 lbv1.beta.com crm_resource: [18953]: info: Invoked: /usr
> >/sbin/crm_resource -r varnishd -W
> >
> >宜しくお願いします。
> >
> >
> >--
> >
> >ELF Systems
> >Masamichi Fukuda
> >mail to: masamichi_fukud****@elf-s*****
> >_______________________________________________
> >Linux-ha-japan mailing list
> >Linux****@lists*****
> >http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >
> >
> >
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>



-- 
ELF Systems
Masamichi Fukuda
mail to: *masamichi_fukud****@elf-s***** <elfsy****@gmail*****>*
-------------- next part --------------
HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...
Télécharger 



Linux-ha-japan メーリングリストの案内
Back to archive index