[Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定

Back to archive index

高瀬智大 tomoh****@kccs*****
2018年 10月 3日 (水) 21:27:58 JST


山内さん

こんばんは
高瀬です。

返信頂きありがとうございます。

>この時は、corosyncの自動起動が有効のままでしょうか?
>できれば、一旦、自動起動を無効にして再起動後に確認をお願いします。

失礼しました。
Pacemaker、Corosyncの自動起動を無効化し、再度確認しました。

⑤実機を一旦再起動後、次のコマンドラインでmodprobeを手動で行い、initctlからcorosyncのみを起動した場合に、ログのWDサービスの出力はどうなっていますか?
⇒以下WDサービスのログが出力されておりました。ログを見ると正常に読み込まれているログが確認できました。
-----------
corosync notice  [SERV  ] Service engine loaded: corosync profile loading
service [4]
corosync info    [WD    ] Watchdog /dev/watchdog is now been tickled by
corosync.
corosync info    [WD    ] no resources configured.
corosync notice  [SERV  ] Service engine loaded: corosync watchdog service
[7]
corosync notice  [QUORUM] Using quorum provider corosync_votequorum
corosync notice  [SERV  ] Service engine loaded: corosync vote quorum
service v1.0 [5]
corosync info    [QB    ] server name: votequorum
corosync notice  [SERV  ] Service engine loaded: corosync cluster quorum
service v0.1 [3]
corosync info    [QB    ] server name: quorum
corosync notice  [TOTEM ] adding new UDPU member {10.90.20.31}
corosync notice  [TOTEM ] adding new UDPU member {10.90.120.31}
corosync notice  [TOTEM ] A new membership (10.90.20.31:160) was formed.
Members joined: 1
corosync notice  [QUORUM] Members[1]: 1
corosync notice  [MAIN  ] Completed service synchronization, ready to
provide service.
corosync notice  [TOTEM ] A new membership (10.90.20.31:164) was formed.
Members joined: 2
corosync notice  [QUORUM] This node is within the primary component and
will provide service.
corosync notice  [QUORUM] Members[2]: 1 2
corosync notice  [MAIN  ] Completed service synchronization, ready to
provide service.
-----------

⑥⑤後に/dev/watchdogのアクセス権はどうなっていますか?
⇒アクセス権は以下のようになっております。
-----------
crw-rw---- 1 root root 10, 130 2018-10-03 20:21 /dev/watchdog
-----------

⑦⑤に似ていますが、再度実機を一旦再起動後、modprobeを手動で行い、/dev/watchdogに対して、起動ユーザで以下のコマンドで書き込みは可能ですか?
以下を行った場合、正しく書き込みが行われると、暫くすると、システムはwatchdogによって再起動します。
⇒こちらも正常に再起動しました。

また、この時ですが、/etc/sysconfig/pacemakerの設定で、fail-fast=no(もしくは、未設定)でしょうか?
⇒「export PCMK_fail_fast=yes」となっております。
「yes」となっているのでcorosyncのKILLを実施した際にノードが再起動され、切替が発生する想定でしたが、
ノードの再起動が実行されない状態となっております。

以上です。
宜しくお願い致します。

2018年10月3日(水) 19:27 <renay****@ybb*****>:

> 先のメールが消失してしまったようなので、再送します。
>
>
> ----- Original Message -----
> > From: "renay****@ybb*****" <renay****@ybb*****>
> > To: 高瀬智大 <tomoh****@kccs*****>; "linux****@lists*****" <
> linux****@lists*****>
> > Cc:
> > Date: 2018/10/3, Wed 19:14
> > Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >
> > 高瀬さん
> >
> > こんばんは、山内です。
> >
> > ①~④のご確認ありがとうございます。プロセスのユーザに関しては問題ないようです。
> >
> >
> >> ⑤~⑦を実施しましたので結果を以下に記載致します。
> >> お手数ですが、ご確認の程よろしくお願い致します。
> >>
> >>
> >>
> ⑤実機を一旦再起動後、次のコマンドラインでmodprobeを手動で行い、initctlからcorosyncのみを起動した場合に、ログのWDサービスの出力はどうなっていますか?
> >> ⇒手動にてsoftdogをロード後、initctlからcorosyncにてを起動しました。
> >>  corosyncログにWDサービスログは出力されておらず、以下のみ出力されておりました。
> >>
>  ※modprobeにてsoftdogモジュールを読み込む前にlsmodにてよみこまれているモジュールを確認したところ、softdogは既に読み込まれているようでした。
> >>  ------
> >>  corosync notice  [MAIN  ] Corosync Cluster Engine ('2.4.2'):
> > started and ready to provide service.
> >>  corosync info    [MAIN  ] Corosync built-in features: watchdog upstart
> > snmp pie relro bindnow
> >>  corosync error   [MAIN  ] Another Corosync instance is already running.
> >>  corosync error   [MAIN  ] Corosync Cluster Engine exiting with status
> 18
> > at main.c:1358.
> >>  ------
> >
> > この時は、corosyncの自動起動が有効のままでしょうか?
> > できれば、一旦、自動起動を無効にして再起動後に確認をお願いします。
> > もしかして、この確認時は、/dev/watchdogすら存在していなかったでしょうか?
> >
> > WDサービスのログが出ないというのは、ちょっと不思議です。
> >>
> >> ⑥⑤後に/dev/watchdogのアクセス権はどうなっていますか?
> >>
> >> ⇒アクセス権は以下となっております。
> >>  ---------
> >>  crw-rw---- 1 root root 10, 130 2018-10-03 16:35 /dev/watchdog
> >>  ---------
> >
> > こちらも問題ないと思います。
> >
> >>
> >>
> ⑦⑤に似ていますが、再度実機を一旦再起動後、modprobeを手動で行い、/dev/watchdogに対して、起動ユーザで以下のコマンドで書き込みは可能ですか?
> >>
> >> はい、書き込み可能でした。echoを実施したところOS再起動しました。
> >>
> >>
> >>
> また、設定ファイル「/etc/init/pacemaker.combined.conf」内の「soft_margin=60」を記載したときと、記載しないときでpacemakerの動作が異なっております。
> >> ・「soft_margin=60」を記載し、corosyncをKILLした場合
> >> Active、StandyにてPacemakerの通信は切れるが、Acrive側にてリソースを保持したまま、切替わらない。
> >> Standy側から、Active側はOFFLINEとして認識されている。
> >>
> >>
> >> ・「soft_margin=60」を消去し、corosyncをKILLした場合
> >>
> >> Standby側にてVIPCheckが失敗し、その後の切替処理が止まってしまう。
> >
> > 確かsoft_marginを設定する必要があったと記憶していますが、こちらは確認してみます。
> > ※設定の有無で動作が異なった記憶があります。
> >
> > また、この時ですが、/etc/sysconfig/pacemakerの設定で、fail-fast=no(もしくは、未設定)でしょうか?
> > ※noに設定していないと、ノードが再起動するので、上記の結果にはならないのですが・・・
> >
> > 以上、よろしくお願いいたします。
> >
> >
> > ----- Original Message -----
> >> From: 高瀬智大 <tomoh****@kccs*****>
> >> To: renay****@ybb*****; linux****@lists*****
> >> Date: 2018/10/3, Wed 18:32
> >> Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >>
> >>
> >> 山内さん
> >>
> >>
> >> こんばんは。
> >> 高瀬です。
> >>
> >>
> >> ⑤~⑦を実施しましたので結果を以下に記載致します。
> >> お手数ですが、ご確認の程よろしくお願い致します。
> >>
> >>
> >>
> ⑤実機を一旦再起動後、次のコマンドラインでmodprobeを手動で行い、initctlからcorosyncのみを起動した場合に、ログのWDサービスの出力はどうなっていますか?
> >> ⇒手動にてsoftdogをロード後、initctlからcorosyncにてを起動しました。
> >>  corosyncログにWDサービスログは出力されておらず、以下のみ出力されておりました。
> >>
>  ※modprobeにてsoftdogモジュールを読み込む前にlsmodにてよみこまれているモジュールを確認したところ、softdogは既に読み込まれているようでした。
> >>  ------
> >>  corosync notice  [MAIN  ] Corosync Cluster Engine ('2.4.2'):
> > started and ready to provide service.
> >>  corosync info    [MAIN  ] Corosync built-in features: watchdog upstart
> > snmp pie relro bindnow
> >>  corosync error   [MAIN  ] Another Corosync instance is already running.
> >>  corosync error   [MAIN  ] Corosync Cluster Engine exiting with status
> 18
> > at main.c:1358.
> >>  ------
> >>
> >> ⑥⑤後に/dev/watchdogのアクセス権はどうなっていますか?
> >>
> >> ⇒アクセス権は以下となっております。
> >>  ---------
> >>  crw-rw---- 1 root root 10, 130 2018-10-03 16:35 /dev/watchdog
> >>  ---------
> >>
> >>
> ⑦⑤に似ていますが、再度実機を一旦再起動後、modprobeを手動で行い、/dev/watchdogに対して、起動ユーザで以下のコマンドで書き込みは可能ですか?
> >>
> >> はい、書き込み可能でした。echoを実施したところOS再起動しました。
> >>
> >>
> >>
> また、設定ファイル「/etc/init/pacemaker.combined.conf」内の「soft_margin=60」を記載したときと、記載しないときでpacemakerの動作が異なっております。
> >> ・「soft_margin=60」を記載し、corosyncをKILLした場合
> >> Active、StandyにてPacemakerの通信は切れるが、Acrive側にてリソースを保持したまま、切替わらない。
> >> Standy側から、Active側はOFFLINEとして認識されている。
> >>
> >>
> >> ・「soft_margin=60」を消去し、corosyncをKILLした場合
> >>
> >> Standby側にてVIPCheckが失敗し、その後の切替処理が止まってしまう。
> >>
> >>
> >> 以上です。
> >> 宜しくお願い致します。
> >>
> >>
> >> 2018年10月3日(水) 14:21 <renay****@ybb*****>:
> >>
> >> 高瀬さん
> >>>
> >>> こんにちは、山内です。
> >>>
> >>> 送付ありがとうございました。
> >>> ざっと見た感じですが、pacemaker.combinedの設定ファイルは、思った通りで、特に問題はないようですね。
> >>>
> >>>
> >>> 他の⑦までの件の結果いかんですが、たぶん、AWS環境で起動時にmodprobeが実行出来ないのではないか?と思っています。
> >>> 何らかのサービス(startedで待つ)などの必要があるかもしれません。
> >>>
> >>>
> >>> とりあえず、以上です。
> >>>
> >>>
> >>>
> >>> ----- Original Message -----
> >>>> From: 高瀬智大 <tomoh****@kccs*****>
> >>>> To: renay****@ybb*****
> >>>> Date: 2018/10/3, Wed 10:10
> >>>> Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >>>>
> >>>>
> >>>> 山内さん
> >>>>
> >>>>
> >>>> こんにちは。
> >>>> 高瀬です。
> >>>>
> >>>>
> >>>>
> ⑧念の為、起動に使用しているpacemaker.combined(/etc/init/pacemaker.combined.conf)のファイルを開示して頂けますか?
> >>>> →設定ファイルを以下に記載致しますのでお手数ですがご確認の程よろしくお願い致します。
> >>>> →なお。「soft_margin=60」の箇所を消して実行した場合も結果は同じでした。
> >>>>
> >>>>
> >>>> コマンド:cat /etc/init/pacemaker.combined.conf
> >>>> ----------実行結果(ここから)----------
> >>>> # pacemaker-corosync - High-Availability cluster
> >>>> #
> >>>> # Starts Corosync cluster engine and Pacemaker cluster manager.
> >>>>
> >>>>
> >>>> # if you use automatic start, uncomment the line below.
> >>>> start on started local and runlevel [2345]
> >>>>
> >>>>
> >>>> stop on runlevel [0123456]
> >>>> kill timeout 3600
> >>>> respawn
> >>>>
> >>>>
> >>>> env prog=pacemakerd
> >>>> env sysconf=/etc/sysconfig/pacemaker
> >>>> env rpm_lockdir=/var/lock/subsys
> >>>> env deb_lockdir=/var/lock
> >>>>
> >>>>
> >>>> script
> >>>>     [ -f "$sysconf" ] && . "$sysconf"
> >>>>     exec $prog
> >>>> end script
> >>>>
> >>>>
> >>>> pre-start script
> >>>>     # setup the software watchdog which corosync uses.
> >>>>     # rewrite according to environment.
> >>>>     [ -c /dev/watchdog ] || modprobe softdog soft_margin=60
> >>>>     pidof corosync || start corosync
> >>>>
> >>>>
> >>>>     # if you use corosync-notifyd, uncomment the line below.
> >>>>     #start corosync-notifyd
> >>>>
> >>>>
> >>>>     # give it time to fail.
> >>>>     sleep 2
> >>>>     pidof corosync || { exit 1; }
> >>>>
> >>>>
> >>>>     # if you use crm_mon, uncomment the line below.
> >>>>     #start crm_mon
> >>>> end script
> >>>>
> >>>>
> >>>> post-start script
> >>>>     [ -f "$sysconf" ] && . "$sysconf"
> >>>>     [ -z "$LOCK_FILE" -a -d "$rpm_lockdir" ]
> > && LOCK_FILE="$rpm_lockdir/pacemaker"
> >>>>     [ -z "$LOCK_FILE" -a -d "$deb_lockdir" ]
> > && LOCK_FILE="$deb_lockdir/pacemaker"
> >>>>     touch "$LOCK_FILE"
> >>>>     pidof $prog > "/var/run/$prog.pid"
> >>>> end script
> >>>>
> >>>>
> >>>> post-stop script
> >>>>     [ -f "$sysconf" ] && . "$sysconf"
> >>>>     [ -z "$LOCK_FILE" -a -d "$rpm_lockdir" ]
> > && LOCK_FILE="$rpm_lockdir/pacemaker"
> >>>>     [ -z "$LOCK_FILE" -a -d "$deb_lockdir" ]
> > && LOCK_FILE="$deb_lockdir/pacemaker"
> >>>>     rm -f "$LOCK_FILE"
> >>>>     rm -f "/var/run/$prog.pid"
> >>>>
> >>>>
> >>>>     # if you use watchdog of corosync, uncomment the line below.
> >>>>     pidof corosync || false
> >>>>
> >>>>
> >>>>     pidof crmd || stop corosync
> >>>>
> >>>>
> >>>>     # if you want to reboot a machine by watchdog of corosync when
> >>>>     # pacemakerd disappeared unexpectedly, uncomment the line below
> >>>>     # and invalidate above "respawn" stanza.
> >>>>     #pidof crmd && killall -q -9 corosync
> >>>>
> >>>>
> >>>>     # if you use crm_mon, uncomment the line below.
> >>>>     #stop crm_mon
> >>>>
> >>>>
> >>>>     # if you use corosync-notifyd, uncomment the line below.
> >>>>     #stop corosync-notifyd || true
> >>>> end script
> >>>> ----------実行結果(ここまで)----------
> >>>>
> >>>> 以上です。
> >>>> 宜しくお願い致します。
> >>>>
> >>>>
> >>>> 2018年10月3日(水) 10:04 高瀬智大 <tomoh****@kccs*****>:
> >>>>
> >>>> 山内さん
> >>>>>
> >>>>>
> >>>>> こんにちは。
> >>>>> 高瀬です。
> >>>>>
> >>>>>
> >>>>> 返信ありがとうございます。
> >>>>> 確認事項について以下に記載致しますのでお手数ですが、ご確認の程よろしくお願い致します。
> >>>>>
> >>>>>
> >>>>> ①環境ですが?実機ですか?仮想ですか?
> >>>>> ⇒仮想環境です。AWS EC2インスタンスにて構築しています。
> >>>>>
> >>>>>
> >>>>> ②pacemaker.combinedの起動ユーザは?rootですか?
> >>>>> ⇒pacemaker関連のプロセスを確認しました。以下となりますが、相違ないでしょうか。
> >>>>>  コマンド「ps -ef|grep pacemaker | grep -v grep」
> >>>>>  --------
> >>>>>  root      1434     1  0 Sep29 ?        00:00:13 pacemakerd
> >>>>>  189       1446  1434  0 Sep29 ?        00:01:27
> > /usr/libexec/pacemaker/cib
> >>>>>  root      1447  1434  0 Sep29 ?        00:00:13
> > /usr/libexec/pacemaker/stonithd
> >>>>>  root      1448  1434  0 Sep29 ?        00:01:07
> > /usr/libexec/pacemaker/lrmd
> >>>>>  189       1449  1434  0 Sep29 ?        00:00:46
> > /usr/libexec/pacemaker/attrd
> >>>>>  189       1450  1434  0 Sep29 ?        00:00:14
> > /usr/libexec/pacemaker/pengine
> >>>>>  189       1451  1434  0 Sep29 ?        00:00:23
> > /usr/libexec/pacemaker/crmd
> >>>>>  root      1621     1  0 Sep29 ?        00:04:02 /bin/sh
> > /usr/local/script/pacemaker/ping_check.sh
> >>>>>  --------
> >>>>>
> >>>>>
> >>>>> ③また、pacemaker.combinedの自動起動は有効になるように変更していますか?
> >>>>> ⇒はい。自動起動になるように設定しております。
> >>>>>
> >>>>>
> >>>>> ④selinuxの設定は、何か設定されていますか?
> >>>>> ⇒いいえ。無効化(disable)としております。
> >>>>>
> >>>>>
> >>>>>
> ⑤実機を一旦再起動後、次のコマンドラインでmodprobeを手動で行い、initctlからcorosyncのみを起動した場合に、ログのWDサービスの出力はどうなっていますか?
> >>>>>  ⇒実施後に再度ご連絡致します。
> >>>>>
> >>>>>
> >>>>> ⑥⑤後に/dev/watchdogのアクセス権はどうなっていますか?
> >>>>>
> >>>>>  ⇒実施後に再度ご連絡致します。
> >>>>>
> >>>>>
> >>>>>
> ⑦⑤に似ていますが、再度実機を一旦再起動後、modprobeを手動で行い、/dev/watchdogに対して、起動ユーザで以下のコマンドで書き込みは可能ですか?
> >>>>>
> >>>>>  ⇒実施後に再度ご連絡致します。
> >>>>>
> >>>>>
> >>>>>
> >>>>>
> ⑧念の為、起動に使用しているpacemaker.combined(/etc/init/pacemaker.combined.conf)のファイルを開示して頂けますか?
> >>>>>  ⇒承知しました。
> >>>>>  念の為、申し訳ありませんが、個別にて別途送付させてい頂きます。
> >>>>>
> >>>>>
> >>>>> 以上です。
> >>>>> お手数をおかけしますがよろしくお願い致します。
> >>>>>
> >>>>> 2018年10月2日(火) 19:01 <renay****@ybb*****>:
> >>>>>
> >>>>> 高瀬さん
> >>>>>>
> >>>>>> こんばんは、山内です。
> >>>>>>
> >>>>>> 今の所、全く、原因は不明です。
> >>>>>>
> >>>>>> お手数ですが、再度、いくつか確認させてください。
> >>>>>>
> >>>>>> ①環境ですが?実機ですか?仮想ですか?
> >>>>>> ②pacemaker.combinedの起動ユーザは?rootですか?
> >>>>>> ③また、pacemaker.combinedの自動起動は有効になるように変更していますか?
> >>>>>> ④selinuxの設定は、何か設定されていますか?
> >>>>>>
> ⑤実機を一旦再起動後、次のコマンドラインでmodprobeを手動で行い、initctlからcorosyncのみを起動した場合に、ログのWDサービスの出力はどうなっていますか?
> >>>>>>
> >>>>>> [root @ cent69-01 ~]# modprobe softdog
> >>>>>> [root @ cent69-01 ~]# start corosync
> >>>>>>
> >>>>>> ⑥⑤後に/dev/watchdogのアクセス権はどうなっていますか?
> >>>>>> (以下は手元の正常に起動する環境での例)
> >>>>>> [root @ cent69-01 ~]# ls -lt /dev/watchdog
> >>>>>> crw-rw---- 1 root root 10, 130 10月  2 10:11 2018
> > /dev/watchdog
> >>>>>>
> >>>>>>
> ⑦⑤に似ていますが、再度実機を一旦再起動後、modprobeを手動で行い、/dev/watchdogに対して、起動ユーザで以下のコマンドで書き込みは可能ですか?
> >>>>>> 以下を行った場合、正しく書き込みが行われると、暫くすると、システムはwatchdogによって再起動します。
> >>>>>> [root @ cent69-01 ~]# modprobe softdog
> >>>>>> [root @ cent69-01 ~]# echo > /dev/watchdog
> >>>>>>
> >>>>>>
> ⑧念の為、起動に使用しているpacemaker.combined(/etc/init/pacemaker.combined.conf)のファイルを開示して頂けますか?
> >>>>>>
> >>>>>> 以上、宜しくお願いいたします。
> >>>>>>
> >>>>>>
> >>>>>> ----- Original Message -----
> >>>>>>> From: 高瀬智大 <tomoh****@kccs*****>
> >>>>>>> To: renay****@ybb*****
> >>>>>>> Cc: linux****@lists*****
> >>>>>>> Date: 2018/10/2, Tue 07:52
> >>>>>>> Subject: Re: [Linux-ha-jp]
> > corosync+pacemakerでのwatchdog動作が不安定
> >>>>>>>
> >>>>>>>
> >>>>>>> 山内さん
> >>>>>>>
> >>>>>>>
> >>>>>>> おはようございます。
> >>>>>>> 高瀬です。
> >>>>>>>
> >>>>>>>
> >>>>>>> fuser -v /dev/watchdogにて確認したところ、何も表示されませんでした。
> >>>>>>> これはcorosync起動時にwatchdogが認識されていない状態となっており、正常動作しないのかと思っております。
> >>>>>>>
> >>>>>>>
> >>>>>>> 以上です。
> >>>>>>> 宜しくお願い致します。
> >>>>>>>
> >>>>>>> 2018年10月2日(火) 6:31 <renay****@ybb*****>:
> >>>>>>>
> >>>>>>> 高瀬さん
> >>>>>>>>
> >>>>>>>> こんにちは、山内です。
> >>>>>>>>
> >>>>>>>>> 以下コマンドにて/dev/watchdogにアクセスしているユーザを確認しました。
> >>>>>>>>> fuser -mv /dev/watchdog
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> 確認した結果、様々なプロセスが読み込み専用、書き込み専用として開いておりました。
> >>>>>>>>> その中でもcorosync、pacemakerに着目したところ、F(書き込み専用)で使用中でした。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> -----------------
> >>>>>>>>> USER        PID ACCESS COMMAND
> >>>>>>>>>
> >>>>>>>>> root       1072 F.... corosync
> >>>>>>>>>
> >>>>>>>>> root           1350 F.... pacemakerd
> >>>>>>>>>
> >>>>>>>>> root           1361 F.c.. agetty
> >>>>>>>>>
> >>>>>>>>> -----------------
> >>>>>>>>
> >>>>>>>> fuser -vではどうでしょう?
> >>>>>>>>
> 手元の正常なCentOSの単ノードでは、pacemaker.combinedで起動後は以下となり、corosyncのみのアクセスが確認できます。
> >>>>>>>>
> >>>>>>>> [root @ cent69-01 ~]# fuser -v /dev/watchdog
> >>>>>>>>                      USER        PID ACCESS COMMAND
> >>>>>>>> /dev/watchdog:       root       2148 F.... corosync
> >>>>>>>> [root @ cent69-01 ~]#
> >>>>>>>>
> >>>>>>>>
> >>>>>>>> 以上です。
> >>>>>>>>
> >>>>>>>>
> >>>>>>>> ----- Original Message -----
> >>>>>>>>> From: 高瀬智大 <tomoh****@kccs*****>
> >>>>>>>>> To: renay****@ybb*****
> >>>>>>>>> Cc: linux****@lists*****
> >>>>>>>>> Date: 2018/10/1, Mon 19:14
> >>>>>>>>> Subject: Re: [Linux-ha-jp]
> > corosync+pacemakerでのwatchdog動作が不安定
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> 山内さん
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> こんばんは、高瀬です。
> >>>>>>>>> 早速の返信ありがとうございます。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> 以下コマンドにて/dev/watchdogにアクセスしているユーザを確認しました。
> >>>>>>>>> fuser -mv /dev/watchdog
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> 確認した結果、様々なプロセスが読み込み専用、書き込み専用として開いておりました。
> >>>>>>>>> その中でもcorosync、pacemakerに着目したところ、F(書き込み専用)で使用中でした。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> -----------------
> >>>>>>>>> USER        PID ACCESS COMMAND
> >>>>>>>>>
> >>>>>>>>> root       1072 F.... corosync
> >>>>>>>>>
> >>>>>>>>> root           1350 F.... pacemakerd
> >>>>>>>>>
> >>>>>>>>> root           1361 F.c.. agetty
> >>>>>>>>>
> >>>>>>>>> -----------------
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> 以上です。
> >>>>>>>>> 宜しくお願い致します。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>> 2018年10月1日(月) 18:54
> > <renay****@ybb*****>:
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>> 高瀬さん
> >>>>>>>>>>
> >>>>>>>>>> こんばんは、山内です。
> >>>>>>>>>>
> >>>>>>>>>>>
> corosyncの起動ログにwarningが出ているものの正常にsoftdogが組み込まれている事から、問題ないとおもいますがいかがでしょうか。
> >>>>>>>>>>> 大変お手数をおかけして申し訳ありませんがご教示の程よろしくお願い致します。
> >>>>>>>>>>
> >>>>>>>>>>
> >>>>>>>>>>
> 該当のログのソースは以下となっておりますので、watchdog自体にcorosyncがアクセス出来ない状態となっていて設定出来ていないと思われます。
> >>>>>>>>>> よって、以降、corosyncのwatchdog機能(WDサービス)は無効となっていると思います。
> >>>>>>>>>>
> >>>>>>>>>> (snip)
> >>>>>>>>>> static int setup_watchdog(void)
> >>>>>>>>>>  {
> >>>>>>>>>>  struct watchdog_info ident;
> >>>>>>>>>>  char *str;
> >>>>>>>>>>  ENTER();
> >>>>>>>>>>  if
> > (icmap_get_string("resources.watchdog_device", &str) == CS_OK) {
> >>>>>>>>>>  if (strcmp (str, "off") == 0) {
> >>>>>>>>>>  log_printf (LOGSYS_LEVEL_WARNING,
> > "Watchdog disabled by configuration");
> >>>>>>>>>>  free(str);
> >>>>>>>>>>  dog = -1;
> >>>>>>>>>>  return -1;
> >>>>>>>>>>  } else {
> >>>>>>>>>>  watchdog_device = str;
> >>>>>>>>>>  }
> >>>>>>>>>>  }
> >>>>>>>>>>  if (access (watchdog_device, W_OK) != 0) {
> >>>>>>>>>>  log_printf (LOGSYS_LEVEL_WARNING, "No
> > Watchdog %s, try modprobe <a watchdog>", watchdog_device);
> >>>>>>>>>>  dog = -1;
> >>>>>>>>>>  return -1;
> >>>>>>>>>>  }
> >>>>>>>>>>
> >>>>>>>>>> (snip)
> >>>>>>>>>>
> >>>>>>>>>> ちなみに、該当システムの他のプロセスが/dev/watchdogを持っているようなことはないでしょうか?
> >>>>>>>>>> HPなどのハードの場合、独自のツールの監視プロセスが/dev/watchdogを持っていたりということがありますが・・・
> >>>>>>>>>>
> >>>>>>>>>> 以上です。
> >>>>>>>>>> ----- Original Message -----
> >>>>>>>>>>> From: 高瀬智大
> > <tomoh****@kccs*****>
> >>>>>>>>>>> To: renay****@ybb*****
> >>>>>>>>>>> Cc: linux****@lists*****
> >>>>>>>>>>> Date: 2018/10/1, Mon 18:43
> >>>>>>>>>>> Subject: Re: [Linux-ha-jp]
> > corosync+pacemakerでのwatchdog動作が不安定
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>> 山内さん
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>> こんばんは
> >>>>>>>>>>> 高瀬です。
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>> 返信ありがとうございます。
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>> /etc/sysconfig/pacemakerの設定は以下にしております。
> >>>>>>>>>>>
> >>>>>>>>>>> -------
> >>>>>>>>>>>
> >>>>>>>>>>> export PCMK_logfile="ログ出力先"
> >>>>>>>>>>> export PCMK_logfacility=none
> >>>>>>>>>>> export PCMK_fail_fast=yes
> >>>>>>>>>>> -------
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>> 起動時のcorosyncログには以下が出力されておりました。
> >>>>>>>>>>> --------
> >>>>>>>>>>>
> >>>>>>>>>>> corosync warning [WD    ] No Watchdog
> > /dev/watchdog, try modprobe <a watchdog>
> >>>>>>>>>>> corosync info    [WD    ] no resources
> > configured.
> >>>>>>>>>>> corosync notice  [SERV  ] Service engine
> > loaded: corosync watchdog service [7]
> >>>>>>>>>>> corosync notice  [QUORUM] Using quorum
> > provider corosync_votequorum
> >>>>>>>>>>> corosync notice  [SERV  ] Service engine
> > loaded: corosync vote quorum service v1.0 [5]
> >>>>>>>>>>> corosync info    [QB    ] server name:
> > votequorum
> >>>>>>>>>>> corosync notice  [SERV  ] Service engine
> > loaded: corosync cluster quorum service v0.1 [3]
> >>>>>>>>>>> corosync info    [QB    ] server name:
> > quorum
> >>>>>>>>>>> --------
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>> また、以下コマンドにてsoftdogが組み込まれているかの確認を実施したところ、表示されておりますので組み込まれておりました。
> >>>>>>>>>>> lsmod |grep softdog
> >>>>>>>>>>> ---------
> >>>>>>>>>>> softdog                 4320  0
> >>>>>>>>>>>
> >>>>>>>>>>> ---------
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> corosyncの起動ログにwarningが出ているものの正常にsoftdogが組み込まれている事から、問題ないとおもいますがいかがでしょうか。
> >>>>>>>>>>> 大変お手数をおかけして申し訳ありませんがご教示の程よろしくお願い致します。
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>> 以上です。
> >>>>>>>>>>> 宜しくお願い致します。
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>> 2018年10月1日(月) 17:30
> > <renay****@ybb*****>:
> >>>>>>>>>>>
> >>>>>>>>>>> 高瀬さん
> >>>>>>>>>>>>
> >>>>>>>>>>>> こんばんは、山内です。
> >>>>>>>>>>>>
> >>>>>>>>>>>>
> >>>>>>>>>>>> 了解いたしました。
> >>>>>>>>>>>>
> >>>>>>>>>>>>
> 実際にUbuntuのKVM上で、CentOS69のゲストを単ノード起動(1.1.16の同じリポジトリパッケージ)で確認してみました。
> >>>>>>>>>>>>
> >>>>>>>>>>>>
> >>>>>>>>>>>> まずは、corosyncの起動のログを確認して頂ければと思います。
> >>>>>>>>>>>>
> 念の為、/etc/sysconfig/pacemakerのfail_fastの設定(「yes」)があれば、コメントにして頂いて、start
> > pacmaker.combinedを実行していただきたいです。
> >>>>>>>>>>>>
> >>>>>>>>>>>>
> corosyncは内部的にWDサービスとしてwatchdogを利用している為、正常にwatchdogを認識していれば、起動時に以下のようなログが出ているはずです。
> >>>>>>>>>>>>
> >>>>>>>>>>>>
> >>>>>>>>>>>> Oct  1 17:19:45 cent69-01
> > corosync[2194]:  [WD    ] Watchdog /dev/watchdog is now been tickled by
> > corosync.
> >>>>>>>>>>>> Oct  1 17:19:45 cent69-01
> > corosync[2194]:  [WD    ] no resources configured.
> >>>>>>>>>>>>
> >>>>>>>>>>>> この時、エラーが出ていれば、何らかの問題があると思います。
> >>>>>>>>>>>> ※もしくは、WDサービスのログが出ていないなど。。。
> >>>>>>>>>>>>
> >>>>>>>>>>>> ちなみに、起動後、softdogが組み込まれたかは?以下で確認出来ます。
> >>>>>>>>>>>>
> >>>>>>>>>>>> [root @ cent69-01 ~]# lsmod |grep
> > softdog
> >>>>>>>>>>>> softdog                 4320  2
> >>>>>>>>>>>>
> >>>>>>>>>>>>
> >>>>>>>>>>>> 手元の単ノードで起動後、corosyncをKILLすると数秒後にwatchdogにより再起動が発生しました。
> >>>>>>>>>>>>
> >>>>>>>>>>>> [root @ cent69-01 ~]# ps -ef |grep
> > coro
> >>>>>>>>>>>> root      2078     1  2 17:27 ?
> >   00:00:01 corosync
> >>>>>>>>>>>> root      2107  2048  0 17:28 pts/0
> >   00:00:00 grep coro
> >>>>>>>>>>>> [root @ cent69-01 ~]# kill -9 2078
> >>>>>>>>>>>>
> >>>>>>>>>>>>
> >>>>>>>>>>>>
> >>>>>>>>>>>> 上記のWDサービスの起動ログなどの確認をお願いします。
> >>>>>>>>>>>> 以上です。
> >>>>>>>>>>>>
> >>>>>>>>>>>> ----- Original Message -----
> >>>>>>>>>>>>> From: 高瀬智大
> > <tomoh****@kccs*****>
> >>>>>>>>>>>>> To: renay****@ybb*****;
> > linux****@lists*****
> >>>>>>>>>>>>> Date: 2018/10/1, Mon 11:09
> >>>>>>>>>>>>> Subject: Re: [Linux-ha-jp]
> > corosync+pacemakerでのwatchdog動作が不安定
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> 山内さん
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> こんにちは
> >>>>>>>>>>>>> 高瀬です。
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> 返信頂きありがとうございます。
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> 1. 起動は、initctlで行っているかどうか?
> >>>>>>>>>>>>> →はい。pacemakerの起動・停止はinitictrlにて実施しています。
> >>>>>>>>>>>>>  2.
> > また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか?
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> →はい。有効になっています。
> >>>>>>>>>>>>> 3. /dev/watchdogが認識されているかどうか?
> >>>>>>>>>>>>> →以下コマンドにて表示(認識)されている事を確認しています。
> >>>>>>>>>>>>>  ls -l  /dev/watchdog
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>  watchdogが正しく動作すれば、上記デバイスファイルの時間は更新されるのでしょうか。
> >>>>>>>>>>>>>  watchdogの処理が失敗しているのか、そもそもwatchdogが動作していないのか切り分けたく、お聞きしております。
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> 設定等でも特に誤って記載している箇所等はないのですが、watchdogによるOS再起動が動作していない状態となります。
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> 以上です。
> >>>>>>>>>>>>> よろしくお願い致します。
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> 2018年9月30日(日) 3:01
> > <renay****@ybb*****>:
> >>>>>>>>>>>>>
> >>>>>>>>>>>>> 高瀬さん
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>> こんばんは、山内です。
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>>
> Linux-ha-japanのリポジトリパッケージを利用されていると思いますので、corosyncのwatchdogは有効になっている
> >>>>>>>>>>>>>> パッケージが入っていると思いますので、設定が正しければwatchdogが動作すると思います。
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>> 以下の点を確認して頂くのが良いと思います。
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>> 1. 起動は、initctlで行っているかどうか?
> >>>>>>>>>>>>>> 2.
> > また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか?
> >>>>>>>>>>>>>>  - https://linux-ha.osdn.jp/wp/archives/4618#51_corosync
> >>>>>>>>>>>>>> 3.
> > /dev/watchdogが認識されているかどうか?
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>> 該当のログは、corosyncがダウンした事をPacemakerプロセスが検知して出力しているので問題はありませんが、
> >>>>>>>>>>>>>> 本来は、このログが出るか出ないかくらいで、watchdogが発動してOS再起動となります。
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>> 先に書いた3つあたりを確認していただければ良いかと思います。
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>> 以上です。
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>> ----- Original Message -----
> >>>>>>>>>>>>>>> From: 高瀬智大
> > <tomoh****@kccs*****>
> >>>>>>>>>>>>>>> To:
> > linux****@lists*****
> >>>>>>>>>>>>>>> Date: 2018/9/29, Sat
> > 16:18
> >>>>>>>>>>>>>>> Subject: [Linux-ha-jp]
> > corosync+pacemakerでのwatchdog動作が不安定
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> お世話になっております。
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> 現在、corosync+pacemakerにてHA構成を組んでおります。
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> corosyncプロセスをKILL(コマンド「kill
> > -9 プロセスID」)した際に切り替わる事+watchdogが動作し、OS再起動が発生する事を確認したいのですが、
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> うまく動作していない状況です。
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> 何か情報があればご教示ください。
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> 環境、詳細な事象は以下となります。
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> 【使用ソフト】
> >>>>>>>>>>>>>>> CentOS 6.9 64bit
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> Pacemaker 1.1.16-1
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> pacemaker-repo 1.1.16-1.1
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> corosync 2.4.2-1
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> 【構成】
> >>>>>>>>>>>>>>> 2台でHA構成のActive-Standby構成
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> 【事象】
> >>>>>>>>>>>>>>> ①corosyncプロセスをKILLした際に切替が発生しない。
> >>>>>>>>>>>>>>> →Standby側にてVIPCheckが失敗し、その後の切替処理が止まってしまう。
> >>>>>>>>>>>>>>>  この後にActive側にてwatchdogが動作しOS再起動され切替が発生する想定だったが、以下②の事象が発生し
> >>>>>>>>>>>>>>>  OS再起動がされない。
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> ②corosyncをKILLしたが、以下エラーメッセージが出力され、watchdogが動作しない。
> >>>>>>>>>>>>>>> ----------
> >>>>>>>>>>>>>>> hostname stonith-ng:
> > error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error
> (2)
> >>>>>>>>>>>>>>> hostname stonith-ng:
> > error: stonith_peer_cs_destroy:Corosync connection terminated
> >>>>>>>>>>>>>>> hostname pacemakerd:
> > error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error
> (2)
> >>>>>>>>>>>>>>> hostname  pacemakerd:
> >   error: mcp_cpg_destroy:Connection destroyed
> >>>>>>>>>>>>>>> hostname       crmd:
> > error: crmd_quorum_destroy:connection terminated
> >>>>>>>>>>>>>>> hostname         cib:
> >   error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library
> error (2)
> >>>>>>>>>>>>>>> hostname         cib:
> >   error: cib_cs_destroy:Corosync connection lost!  Exiting.
> >>>>>>>>>>>>>>> hostname       attrd:
> >   error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library
> error (2)
> >>>>>>>>>>>>>>> ----------
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> 以上、よろしくお願い致します。
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>> _______________________________________________
> >>>>>>>>>>>>>>> Linux-ha-japan mailing
> > list
> >>>>>>>>>>>>>>> Linux****@lists*****
> >>>>>>>>>>>>>>> https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>>
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>> _______________________________________________
> >>>>>>>>>>>>>> Linux-ha-japan mailing list
> >>>>>>>>>>>>>> Linux****@lists*****
> >>>>>>>>>>>>>> https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >>>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>>
> >>>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>>
> >>>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>
> >>>>>
> >>>>>
> >>>>>
> >>>>
> >>>>
> >>>>
> >>>>
> >>
> >>
> >>
> >>
> >>
> >
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>


-- 
=====================================
京セラコミュニケーションシステム株式会社
プラットフォーム事業部
ITインフラソリューション部
東京ITインフラソリューション1課
東京ITインフラソリューション1A
高瀬 智大(タカセ トモヒロ)

〒108-8605
東京都港区三田3-11-34(センチュリー三田ビル)
E-mail:tomoh****@kccs*****
=====================================
-------------- next part --------------
HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...
URL: https://lists.osdn.me/mailman/archives/linux-ha-japan/attachments/20181003/3f1e314d/attachment-0001.htm 



Linux-ha-japan メーリングリストの案内
Back to archive index