[Linux-ha-jp] status失敗後のstart処理について

Back to archive index

renay****@ybb***** renay****@ybb*****
2016年 9月 6日 (火) 22:46:40 JST


藤瀬さん

こんばんは、山内です。


もし可能であれば、ログや、cib(設定したcrmファイルなど)、lsbのリソースファイルを開示して頂ければ、問題の解決が可能かも知れません。
可能な範囲で、開示して頂けますでしょうか?
#lsbのリソースもstatusのリターンコードがどうなっているかが気になる所です。


以上、





----- Original Message -----
>From: 藤瀬雅大 <masah****@gmail*****>
>To: linux****@lists***** 
>Date: 2016/9/5, Mon 17:11
>Subject: Re: [Linux-ha-jp] status失敗後のstart処理について
> 
>
>清水様
>
>
>お世話になります。
>藤瀬です。
>
>
>再度ご回答いただきありがとうございます。
>
>
>on-fail=standbyは試したことがありませんでしたので、
>
>試してみたいと思います。
>
>
>確認でき次第、こちらで共有させていただきたいと思います。
>
>
>以上、何卒よろしくお願いいたします。
>
>
>
>
>2016年9月1日 18:45 清水 純 <jun.s****@centr*****>:
>
>藤瀬さん
>>
>>清水です。
>>
>>う~ん。 私もこのあたりの動きは試行錯誤してみないと正解かどうかは分か りませんが、
>>status の on-fail に standby を設定してみてはどうでしょう?
>>
>>全リソースが他ノードで起動するようです。
>>http://clusterlabs.org/doc/en- US/Pacemaker/1.0/html/ Pacemaker_Explained/s- resource-operations.html
>>
>>単純なプロセス障害等であれば再起動で復旧できることが多いので 、私の環境では
>>まずは一度稼働系で再起動を試みてダメだったらフェイルオーバー させることが
>>多く、standby を指定したことが無いので藤瀬さんの想定通りになるかはちょっと
>>わかりませんが。。。
>>
>>
>>On 2016/09/01 17:57, 藤瀬雅大 wrote:
>>> 清水様
>>>
>>> お世話になります。
>>> 藤瀬です。
>>>
>>> ご回答いただきありがとうございます。
>>>
>>> ご指摘いただきましたmigration- thresholdの設定ですが、
>>> migration-threshold="1" となっておりましたので、これが原因ではないようです。
>>>
>>> その他、statusのon-failを"restart" に設定しておりますが
>>> こちらは影響ありますでしょうか。
>>>
>>> お手数かと存じますが、何卒ご確認の程宜しくお願いいたします。
>>>
>>>
>>>
>>> 2016年9月1日 17:36 清水 純 <jun.shimizu @ central-tanshifx. com <mailto:jun.shimizu @ central- tanshifx.com>>:
>>
>>>
>>>     藤瀬さん
>>>
>>>     清水と申します。
>>>
>>>     RAの設定ではなく、Pacemakerの設定で
>>>       migration-threshold="2"
>>>
>>>     の設定が入っていませんか?
>>>     この場合、status失敗後、 一度は再起動を試みてダメだったら
>>>     フェイルオーバーするという意味になります。
>>>
>>>     この設定を"1"にすれば即座にフェイルオーバーするかと。
>>>
>>>     On 2016/09/01 11:04, 藤瀬雅大 wrote:
>>>     > Linux-ha-japanの皆様
>>>     >
>>>     > お世話になっております。
>>>     > 藤瀬と申します。
>>>     >
>>>     > フェイルオーバー時の挙動について質問させてください。
>>>     >
>>>     > LSB形式でリソースエージェントを自作しています。
>>>     > 作りは簡素なものですが、 メソッドそれぞれにタイムアウトを設定しており、
>>>     >
>>>     > start: タイムアウト300秒でサービス停止判定
>>>     > stop: タイムアウト60秒でサービス停止判定
>>>     > status: タイムアウト60秒でサービス停止判定
>>>     >
>>>     > としています。
>>>     >
>>>     > start処理のタイムアウト値を大きくしている理由ですが、
>>>     > サーバ起動時のサービス起動に時間がかかるためです。
>>>     >
>>>     > この状態でstatusに失敗した場合、 サービス停止から60秒で
>>>     > フェイルオーバーが発生すると思っていたのですが、実際は
>>>     >
>>>     > status失敗(60秒) -> start失敗(300秒) -> フェイルオーバー
>>>     >
>>>     > 上記のようにstatus失敗の後にstart処理が走り、
>>>     > サービス停止からフェイルオーバーまで360秒かかっています。
>>>     >
>>>     > startはサーバ起動時、 またはスタンバイからアクティブに切り替わるときに
>>>     > 発生する処理だと認識していましたが、 その他で発生しうるのでしょうか。
>>>     >
>>>     > また、 status失敗後にstartを実施させない方法はありますで しょうか。
>>>     >
>>>     >
>>>     > 環境は以下の通りとなります。
>>>     > OS: CentOS release 5.9 (Final)
>>>     > Pacemaker: pacemaker-1.0.13-2.el5
>>>     > Corosync: corosync-1.4.6-1.el5
>>>     >
>>>     > 何か知見がありましたら、ご教授いただけると幸いです。
>>>     > よろしくお願いいたします。
>>>     >
>>>     >
>>>     > ______________________________ _________________
>>>     > Linux-ha-japan mailing list
>>>     > Linux****@lists***** <mailto:Linux-ha-japan @ lists. osdn.me>
>>>     > http://lists.osdn.me/mailman/ listinfo/linux-ha-japan <http://lists.osdn.me/mailman/ listinfo/linux-ha-japan>
>>>     >
>>>
>>>     ______________________________ _________________
>>>     Linux-ha-japan mailing list
>>>     Linux****@lists***** <mailto:Linux-ha-japan @ lists. osdn.me>
>>>     http://lists.osdn.me/mailman/ listinfo/linux-ha-japan <http://lists.osdn.me/mailman/ listinfo/linux-ha-japan>
>>
>>>
>>>
>>>
>>>
>>> ______________________________ _________________
>>> Linux-ha-japan mailing list
>>> Linux****@lists*****
>>> http://lists.osdn.me/mailman/ listinfo/linux-ha-japan
>>>
>>
>>______________________________ _________________
>>Linux-ha-japan mailing list
>>Linux****@lists*****
>>http://lists.osdn.me/mailman/ listinfo/linux-ha-japan
>>
>
>_______________________________________________
>Linux-ha-japan mailing list
>Linux****@lists*****
>http://lists.osdn.me/mailman/listinfo/linux-ha-japan
>
>
>




Linux-ha-japan メーリングリストの案内
Back to archive index