[Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて

Back to archive index

Masamichi Fukuda - elf-systems masamichi_fukud****@elf-s*****
2015年 3月 3日 (火) 10:43:20 JST


山内さん

お世話になります、福田です。

お忙しいところすみませんが、宜しくお願いします。

2015年3月3日 9:27 <renay****@ybb*****>:

> 福田さん
>
> こんにちは、山内です。
>
> 詳細は失念していますので、明日にでもまたご連絡しますが。。。。
>
> stonithモジュールの単体の実行をstonithコマンドで試せますので、
> xen0の実行をパラメータも指定して実行してみた方がよさそうです。
>
> また、明日にでもお送りいただいた設定ファイルの中身も含めて、確認して
> ご連絡しますね。
>
> 以上です。
>
>
> ----- Original Message -----
> >From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>
> >To: 山内英生 <renay****@ybb*****>
> >Cc: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>; "
> linux****@lists*****" <linux****@lists*****>
> >Date: 2015/3/2, Mon 12:10
> >Subject: Re: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
> >
> >
> >山内さん
> >
> >こんにちは、福田です。
> >
> >前回と同じようにインターコネクトlanのインタフェースをdownさせてみましたが、
> >やはり次のstonithモジュール(xen0)が実行されないようです。
> >
> >サービスlanのインタフェースをdownさせると、ノード2にフィエルオーバします。
> >
> >crmの設定ファイルは次のようにしています。
> >
> >### Cluster Option ###
> >property \
> >    no-quorum-policy="ignore" \
> >    stonith-enabled="true" \
> >    startup-fencing="false" \
> >    stonith-timeout="710s" \
> >    crmd-transition-delay="2s"
> >
> >### Resource Default ###
> >rsc_defaults \
> >    resource-stickiness="INFINITY" \
> >    migration-threshold="1"
> >
> >### Group Configuration ###
> >group HAvarnish \
> >    vip_208 \
> >    varnishd
> >
> >group grpStonith1 \
> >    Stonith1-1 \
> >    Stonith1-2 \
> >    Stonith1-3
> >
> >group grpStonith2 \
> >    Stonith2-1 \
> >    Stonith2-2 \
> >    Stonith2-3
> >
> >### Clone Configuration ###
> >clone clone_ping \
> >    ping
> >
> >### Primitive Configuration ###
> >primitive vip_208 ocf:heartbeat:IPaddr2 \
> >    params \
> >        ip="192.168.17.208" \
> >        nic="eth0" \
> >        cidr_netmask="24" \
> >    op start interval="0s" timeout="90s" on-fail="restart" \
> >    op monitor interval="5s" timeout="60s" on-fail="restart" \
> >    op stop interval="0s" timeout="100s" on-fail="fence"
> >
> >primitive varnishd lsb:varnish \
> >    op start interval="0s" timeout="90s" on-fail="restart" \
> >    op monitor interval="10s" timeout="60s" on-fail="restart" \
> >    op stop interval="0s" timeout="100s" on-fail="fence"
> >
> >primitive ping ocf:pacemaker:ping \
> >    params \
> >        name="default_ping_set" \
> >        host_list="192.168.17.254" \
> >        multiplier="100" \
> >        dampen="1" \
> >    op start interval="0s" timeout="90s" on-fail="restart" \
> >    op monitor interval="10s" timeout="60s" on-fail="restart" \
> >    op stop interval="0s" timeout="100s" on-fail="fence"
> >
> >primitive Stonith1-1 stonith:external/stonith-helper \
> >    params \
> >        priority="1" \
> >        stonith-timeout="40" \
> >        hostlist="lbv1.beta.com" \
> >        dead_check_target="192.168.17.132 10.0.17.132" \
> >        standby_wait_time="10" \
> >        standby_check_command="/usr/sbin/crm_resource -r varnishd -W |
> grep -q `hostname`" \
> >    op start interval="0s" timeout="60s" on-fail="restart" \
> >        stonith-timeout="300" \
> >        hostlist="lbv1.beta.com:/etc/xen/lbv1.cfg" \
> >        dom0="dom0.xxxx.com" \
> >    op start interval="0s" timeout="60s" on-fail="restart" \
> >    op monitor interval="3600s" timeout="60s" on-fail="restart" \
> >    op stop interval="0s" timeout="60s" on-fail="ignore"
> >
> >primitive Stonith1-3 stonith:meatware \
> >    params \
> >        priority="3" \
> >        stonith-timeout="600" \
> >        hostlist="lbv1.beta.com" \
> >    op start interval="0s" timeout="60s" \
> >    op monitor interval="3600s" timeout="60s" \
> >    op stop interval="0s" timeout="60s"
> >
> >primitive Stonith2-1 stonith:external/stonith-helper \
> >    params \
> >        priority="1" \
> >        stonith-timeout="40" \
> >        hostlist="lbv2.beta.com" \
> >        dead_check_target="192.168.17.133 10.0.17.133" \
> >        standby_wait_time="10" \
> >        standby_check_command="/usr/sbin/crm_resource -r varnishd -W |
> grep -q `hostname`" \
> >    op start interval="0s" timeout="60s" on-fail="restart" \
> >    op monitor interval="3600s" timeout="60s" on-fail="restart" \
> >    op stop interval="0s" timeout="60s" on-fail="ignore"
> >
> >primitive Stonith2-2 stonith:external/xen0 \
> >    params \
> >        priority="2" \
> >        stonith-timeout="300" \
> >        hostlist="lbv2.beta.com:/etc/xen/lbv2.cfg" \
> >        dom0="dom0.xxxx.com" \
> >    op start interval="0s" timeout="60s" on-fail="restart" \
> >    op monitor interval="3600s" timeout="60s" on-fail="restart" \
> >    op stop interval="0s" timeout="60s" on-fail="ignore"
> >
> >primitive Stonith2-3 stonith:meatware \
> >    params \
> >        priority="3" \
> >        stonith-timeout="600" \
> >        hostlist="lbv2.beta.com" \
> >    op start interval="0s" timeout="60s" \
> >    op monitor interval="3600s" timeout="60s" \
> >    op stop interval="0s" timeout="60s"
> >
> >### Resource Location ###
> >location HA_location-1 HAvarnish \
> >    rule 200: #uname eq lbv1.beta.com \
> >    rule 100: #uname eq lbv2.beta.com
> >
> >location HA_location-2 HAvarnish \
> >    rule -INFINITY: not_defined default_ping_set or default_ping_set lt
> 100
> >
> >location HA_location-3 grpStonith1 \
> >    rule -INFINITY: #uname eq lbv1.beta.com
> >
> >location HA_location-4 grpStonith2 \
> >    rule -INFINITY: #uname eq lbv2.beta.com
> >
> >DomU(lbv1とlbv2)からDom0へはrootでssh、パスワードなしでログインできるようにはなっています。
> >
> >xen0のパラメータで不足分ありますでしょうか。
> >
> >宜しくお願いします。
> >
> >以上
> >
> >
> >
> >
> >
> >
> >2015年3月1日 16:54 <renay****@ybb*****>:
> >
> >福田さん
> >>
> >>こんにちは、山内です。
> >>
> >>流れ的には正常です。
> >>ただ、helperの次のstonithモジュール(xen0)が実行されていないようなので、こちらは問題です。
> >>
> >>ただ、先にも書きましたが、pacemakerのバージョンでfencing_topologyがどうなっているか?
> >>#お使いの1.1.7で使えるかどうか・・・ちょっと定かではありません。
> >>
> >>後はstonithモジュールもパラメータでリトライの回数や、タイムアウトなども設定できたりもしているので、
> >>そのあたりも見直してみた方がよいかも知れません。
> >>
> >>#fencing_topologyがないと、1.1.12あたりでは、stonithの実行順番も制御できないはずなので・・・
> >>
> >>
> >>まずは、試していただいて、開示できる範囲で、crmファイルの全体も見せて頂いたほうが良いかも知れませんね。
> >>
> >>また、可能であれば、1.1.12あたりの利用も考えてもらったほうが良いかも知れません。
> >>
> >>#すいません、個人的な理由で、水曜日あたりまでは、あまりメールの反応がよくないかも知れません。
> >>
> >>以上です。
> >>
> >>
> >>----- Original Message -----
> >>>From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>
> >>
> >>>To: renay****@ybb*****; linux****@lists*****
> >>>Date: 2015/3/1, Sun 12:09
> >>>Subject: Re: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
> >>>
> >>>
> >>>山内さん
> >>>
> >>>福田です。
> >>>ご回答ありがとうございます。
> >>>
> >>>今の状態は正常なんですね。
> >>>それでは明日、サービスネットワークを切って試してみたいと思います。
> >>>
> >>>> crm設定ファイルのfencing_topologyの設定を見直してみた方がよいと思います。
> >>>
> >>>fencing_topologyという設定はまだ入れていなかったです。
> >>>こちらを入れないと正しく動かないのでしょうか。
> >>>
> >>>宜しくお願いします。
> >>>
> >>>以上
> >>>
> >>>
> >>>
> >>>
> >>>
> >>>2015年2月28日 7:41 <renay****@ybb*****>:
> >>>
> >>>福田さん
> >>>>
> >>>>おはようございます。山内です。
> >>>>
> >>>>インターコネクト(10.0.17.X)が切れて、サービスネットワーク(192.168.17.X)が切れていない状態となっている
> >>>>と思いますので、stonith-helperは、1を返して失敗しているはずです。(正しい検知)
> >>>>その後、stonith-helperが失敗して、xen0,meatwareの順に実行が続くはずですので。。。
> >>>>
> >>>>crm設定ファイルのfencing_topologyの設定を見直してみた方がよいと思います。
> >>>>
> >>>>もしかすると、pacemaker1.1.7あたりでは、fencing_topologyが使えなかったかも?しれません・・・
> >>>>
> >>>>fencing_topologyあたりの処理は、かなり、pacemaker1.1.12まで修正が入って動くようになりましたので、
> >>>>pacemakerのバージョンアップも必要かも知れません。
> >>>>
> >>>>以上です。
> >>>>
> >>>>
> >>>>
> >>>>----- Original Message -----
> >>>>>From: Masamichi Fukuda - elf-systems <
> masamichi_fukud****@elf-s*****>
> >>>>>To: linux****@lists*****
> >>>>>Date: 2015/2/27, Fri 21:04
> >>>>>Subject: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
> >>>>>
> >>>>>
> >>>>>お世話になります、福田と申します。
> >>>>>
> >>>>>debian Xen上で2ノードのクラスタシステムを構築して検証をしています。
> >>>>>Xen上でのstonith使用時のエラーについて質問させて頂きます。
> >>>>>
> >>>>>環境:
> >>>>>
> >>>>>Dom0はdebian7.7, Xen 4.1.4-3+deb7u3
> >>>>>DomUはdebian7.8, pacemaker 1.1.7-1, heartbeat 1:3.0.5-3
> >>>>>同一Dom0上にクラスタ2台を構築しています。
> >>>>>pacemaker,heartbeatはdebianパッケージでインストールしています。
> >>>>>stonith-helper,xen0,meatwareプラグインを使用
> >>>>>
> >>>>>ノード1(active)側のインターコネクト用LANインタフェースをダウンさせて、
> >>>>>スプリットブレインを発生させ、STONITHを行わせようとしています。
> >>>>>
> >>>>>両ノードのcrm_monでは下記のようにお互いをuncleanと表示しています。
> >>>>>
> >>>>>
> >>>>>ノード1側
> >>>>>Node lbv2.beta.com (82ffc36f-1ad8-8686-7db0-35686465c624): UNCLEAN
> (offl
> >>>>>ine)
> >>>>>Online: [ lbv1.beta.com ]
> >>>>>
> >>>>>ノード2側
> >>>>>Node lbv1.beta.com (38b0f200-83ea-8633-6f37-047d36cd39c6): UNCLEAN
> (offl
> >>>>>ine)
> >>>>>Online: [ lbv2.beta.com ]
> >>>>>
> >>>>>ところがエラーメッセージが次のようにでてしまいます。
> >>>>>
> >>>>>ノード1側
> >>>>>lbv1 [12657]: CRIT: external_reset_req: 'stonith-helper reset' for
> host lbv2.beta.com failed with rc 1
> >>>>>
> >>>>>ノード2側
> >>>>>lbv2 [22225]: CRIT: external_reset_req: 'stonith-helper reset' for
> host lbv1.beta.com failed with rc 1
> >>>>>
> >>>>>質問
> >>>>>この状態はSTONITHが動いておらず、stonith-helperのパラメータがおかしいのでしょうか?
> >>>>>
> >>>>>パラメータは次のようにしています。
> >>>>>
> >>>>>primitive Stonith1-1 stonith:external/stonith-helper \
> >>>>>    params \
> >>>>>        priority="1" \
> >>>>>        stonith-timeout="40" \
> >>>>>        hostlist="lbv1.beta.com" \
> >>>>>        dead_check_target="192.168.17.132 10.0.17.132" \
> >>>>>        standby_wait_time="10" \
> >>>>>        standby_check_command="/usr/sbin/crm_resource -r varnishd -W
> | grep -q `hostname`" \
> >>>>>    op start interval="0s" timeout="60s" on-fail="restart" \
> >>>>>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
> >>>>>    op stop interval="0s" timeout="60s" on-fail="ignore"
> >>>>>
> >>>>>primitive Stonith2-1 stonith:external/stonith-helper \
> >>>>>    params \
> >>>>>        priority="1" \
> >>>>>        stonith-timeout="40" \
> >>>>>        hostlist="lbv2.beta.com" \
> >>>>>        dead_check_target="192.168.17.133 10.0.17.133" \
> >>>>>        standby_wait_time="10" \
> >>>>>        standby_check_command="/usr/sbin/crm_resource -r varnishd -W
> | grep -q `hostname`" \
> >>>>>    op start interval="0s" timeout="60s" on-fail="restart" \
> >>>>>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
> >>>>>    op stop interval="0s" timeout="60s" on-fail="ignore"
> >>>>>
> >>>>>
> >>>>>192.168.17.0がサービス用、10.0.17.0がインターコネクト用に使用しているサブネットです。
> >>>>>
> >>>>>ログは下記の通りです。
> >>>>>
> >>>>>Feb 27 19:29:04 lbv1.beta.com stonith: [18566]: CRIT:
> external_reset_req
> >>>>>: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1
> >>>>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR:
> log_operation:
> >>>>>Operation 'reboot' [18565] (call 0 from
> d2acf6a5-ef8d-4249-aaab-25a8686d6647) fo
> >>>>>r host 'lbv2.beta.com' with device 'Stonith2-1' returned: -2
> >>>>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR:
> log_operation:
> >>>>>Stonith2-1: Performing: stonith -t external/stonith-helper -T reset
> lbv2.
> >>>>>-beta.com
> >>>>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR:
> log_operation:
> >>>>>Stonith2-1: failed: lbv2.beta.com 5
> >>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info:
> call_remote_ston
> >>>>>ith: Requesting that lbv1.beta.com perform op reboot lbv2.beta.c
> >>>>>om
> >>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info:
> can_fence_host_w
> >>>>>ith_device: Stonith2-1 can fence lbv2.beta.com: dynamic-list
> >>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info:
> can_fence_host_w
> >>>>>ith_device: Stonith2-2 can fence lbv2.beta.com: dynamic-list
> >>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info:
> can_fence_host_w
> >>>>>ith_device: Stonith2-3 can fence lbv2.beta.com: dynamic-list
> >>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info:
> stonith_fence: F
> >>>>>ound 3 matching devices for 'lbv2.beta.com'
> >>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info:
> stonith_command:
> >>>>> Processed st_fence from lbv1.beta.com: rc=-1
> >>>>>Feb 27 19:29:08 lbv1.beta.com crm_resource: [18790]: info: Invoked:
> /usr
> >>>>>/sbin/crm_resource -r varnishd -W
> >>>>>Feb 27 19:29:09 lbv1.beta.com stonith: [18706]: CRIT:
> external_reset_req
> >>>>>: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1
> >>>>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR:
> log_operation:
> >>>>>Operation 'reboot' [18705] (call 0 from
> d2acf6a5-ef8d-4249-aaab-25a8686d6647) fo
> >>>>>r host 'lbv2.beta.com' with device 'Stonith2-1' returned: -2
> >>>>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR:
> log_operation:
> >>>>>Stonith2-1: Performing: stonith -t external/stonith-helper -T reset
> lbv2.
> >>>>>-beta.com
> >>>>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR:
> log_operation:
> >>>>>Stonith2-1: failed: lbv2.beta.com 5
> >>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info:
> call_remote_ston
> >>>>>ith: Requesting that lbv1.beta.com perform op reboot lbv2.beta.c
> >>>>>om
> >>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info:
> can_fence_host_w
> >>>>>ith_device: Stonith2-1 can fence lbv2.beta.com: dynamic-list
> >>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info:
> can_fence_host_w
> >>>>>ith_device: Stonith2-2 can fence lbv2.beta.com: dynamic-list
> >>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info:
> can_fence_host_w
> >>>>>ith_device: Stonith2-3 can fence lbv2.beta.com: dynamic-list
> >>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info:
> stonith_fence: F
> >>>>>ound 3 matching devices for 'lbv2.beta.com'
> >>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info:
> stonith_command:
> >>>>> Processed st_fence from lbv1.beta.com: rc=-1
> >>>>>Feb 27 19:29:13 lbv1.beta.com crm_resource: [18953]: info: Invoked:
> /usr
> >>>>>/sbin/crm_resource -r varnishd -W
> >>>>>
> >>>>>宜しくお願いします。
> >>>>>
> >>>>>
> >>>>>--
> >>>>>
> >>>>>ELF Systems
> >>>>>Masamichi Fukuda
> >>>>>mail to: masamichi_fukud****@elf-s*****
> >>>>>_______________________________________________
> >>>>>Linux-ha-japan mailing list
> >>>>>Linux****@lists*****
> >>>>>http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>>
> >>>>>
> >>>>>
> >>>>
> >>>>_______________________________________________
> >>>>Linux-ha-japan mailing list
> >>>>Linux****@lists*****
> >>>>http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>
> >>>
> >>>
> >>>--
> >>>
> >>>ELF Systems
> >>>Masamichi Fukuda
> >>>mail to: masamichi_fukud****@elf-s*****
> >>>
> >>>
> >>
> >>
> >
> >
> >--
> >
> >ELF Systems
> >Masamichi Fukuda
> >mail to: masamichi_fukud****@elf-s*****
> >
> >
>
>


-- 
ELF Systems
Masamichi Fukuda
mail to: *masamichi_fukud****@elf-s***** <elfsy****@gmail*****>*
-------------- next part --------------
HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...
Télécharger 



Linux-ha-japan メーリングリストの案内
Back to archive index