大渕昭夫
butch****@gmail*****
2013年 6月 17日 (月) 22:12:20 JST
松尾様 大渕です。 かしこまりました! 素晴らしいですね!! では、早めにMaster/Slave構成出来るようにいたします。 ありがとうございます! サーバー再起動したところ、同様のエラーは出なくなりました。 松尾様のアドバイス通り、NetworkManagerが原因だと良いのですが、、、もう2,3日様子見してみます。 こうしたメーリングリストにメールを出すのは初めてだったのですが、とても親切に御対応いただいて、とってもありがたかったです。 よろしくお願いいたします。 2013年6月17日 19:42 Takatoshi MATSUO <matsu****@gmail*****>: > 大渕さん > 松尾です。 > > > Master/Slave構成にした場合にMaster側で今回と同様の事象が再発した場合、フェールオーバーしてくれますでしょうか? > > はい。 > github の wiki と同じ設定使われているならば、vip-master 故障時はフェイルオーバします。 > > > 2013年6月17日 19:27 大渕昭夫 <butch****@gmail*****>: > > 赤松様 > > > > 大渕です。 > > > > 早速ご確認いただき、本当にありがとうございます! > > > > かしこまりました。 > > > > centOS5でそういった事象があるのか、調べたり問い合わせたりしてみます。 > > > > また、再発した場合は教わったコマンドで対処しようと思います! > > > > いろいろとありがとうございます。 > > > > すいません、もう一点だけ教えてください。 > > > > Master/Slave構成にした場合にMaster側で今回と同様の事象が再発した場合、フェールオーバーしてくれますでしょうか? > > > > 以上、よろしくお願いします。 > > > > 2013年6月17日月曜日 赤松 akamatsu_hiroshi_b1****@lab*****: > >> > >> To:大渕さん > >> > >> 赤松です。 > >> > >> 資材一通りみましたが、結論から言うと原因は判りませんでした。 > >> > >> 簡単に事象を説明すると、大渕さんの環境で起きた事は vip-master の > >> 監視にて eth0 という NIC が存在しているかの確認を行った所、見当た > >> らなかったので異常発生と判断しています。 > >> > >> この NIC の存在確認では、松尾さんのおっしゃるとおり /proc/net/dev > >> を参照しています。 > >> この中に "etho0:" の行が無い為、異常と判定されています。 > >> > >> で、判らないのは vip-slave も eth0 を使ってて、こちらは今も監視 > >> 異常が発生していない(つまり /proc/net/dev に eth0: がある)と > >> 判定されています。 > >> (# cat /proc/net/dev で判ります) > >> > >> default_ping_set でも異常を検知してない。 > >> これも eth0 を経由して監視していますよね。 > >> つまり eth0 は生きている。 > >> > >> また /var/log/messages には当時怪しい情報も無い。 > >> > >> 申し訳ないですが、これ以上は頂いた情報からは判らないです。 > >> > >> 今回のような CentOS5 では一瞬 /proc/net/dev にて NIC の情報が > >> 消える事があり得るのか、有識者から情報を得るか、Cent のコミュニ > >> ティで探してバグパッチがあれば当てるとかしか手はなさそう。 > >> > >> もちろん、もしかしたら全然違う理由かもしれません。 > >> > >> > >> ちなみに下記コマンドで vip-master は復旧する筈です。 > >> > >> # crm_resource -C -r vip-master -N ptdb02.localdomain > >> > >> あまり力になれなかったですね、すいませんでした。 > >> > >> > >> > 赤松様 > >> > > >> > 大渕です。 > >> > > >> > 早速ですが、先ほどご指示いただいたファイルを添付いたします。 > >> > > >> > マスクはしておりません。 > >> > messagesについては容量が大きかったので6月12日から6月17日11時ごろまでの情報と > >> > なっております。 > >> > > >> > ご確認とアドバイスいただければと思います。 > >> > > >> > お忙しいところご対応いただき、本当に助かります。 > >> > > >> > 以上、よろしくお願いいたします。 > >> > > >> > > >> > > >> > 2013年6月17日 15:51 大渕昭夫 <butch****@gmail*****>: > >> > > >> > > 松尾様 > >> > > > >> > > 早速のご返事ありがとうございます! > >> > > > >> > > NetworkManagerは起動している?ようですが自動起動にはなっていませんでした。 > >> > > IC-lan用のLANケーブルを接続した際にGUIで設定したような気がするので、そのせ > >> > > いかもしれません。 > >> > > > >> > > [root @ ptdb02 ~]# ps awx | grep Network > >> > > 3854 ? S 0:00 /usr/sbin/nm-system-settings --config > >> > > /etc/NetworkManager/nm-system-settings.conf > >> > > > >> > > [root @ ptdb02 ~]# chkconfig --list NetworkManager > >> > > NetworkManager 0:off 1:off 2:off 3:off 4:off 5:off > 6:off > >> > > > >> > > messagesなどの情報を確認した後にサーバーを再起動してみようかと思います。 > >> > > > >> > > 以上、よろしくお願いいたします。 > >> > > > >> > > > >> > > 2013年6月17日 15:44 大渕昭夫 <butch****@gmail*****>: > >> > > > >> > > 赤松様 > >> > >> > >> > >> 早速のご返事ありがとうございます! > >> > >> > >> > >> 該当の情報でマスクする部分を上席に確認し、送信させていただきます。 > >> > >> > >> > >> 以上、よろしくお願いいたします。 > >> > >> > >> > >> > >> > >> > >> > >> 2013年6月17日 15:11 Takatoshi MATSUO <matsu****@gmail*****>: > >> > >> > >> > >> 大渕さん > >> > >>> > >> > >>> 松尾です。 > >> > >>> > >> > >>> eth0 インタフェースが消えてしまったように見えます。 > >> > >>> 具体的には、/proc/net/dev に eth0 が表示されなくなったのではないかと思い > >> > >>> ます。 > >> > >>> Pacemakerのログからは根本原因がわかりませんので、まずは /var/log/ > >> > >>> messages を確認されてみてはいかがでしょうか。 > >> > >>> > >> > >>> それと、今回の原因とは直接関係ないかもしれませんが、もしNetworkManager > >> > >>> を起動されているならば停止し、 > >> > >>> ネットワークは手動で設定されことをお勧めします。 > >> > >>> NetworkManager が勝手にネットワーク変更することがあるので。 > >> > >>> > >> > >>> > >> > >>> 2013年6月17日 14:30 大渕昭夫 <butch****@gmail*****>: > >> > >>> > 初めまして。 > >> > >>> > 大渕昭夫と申します。 > >> > >>> > > >> > >>> > アドバイス等いただきたくメールさせていただきました。 > >> > >>> > > >> > >>> > 内容としましては、マスター側のvipが停止してしまったことの原因と対処方 > >> > >>> > 法についてです。 > >> > >>> > あまり技術的に詳しくなく、原因がわからず困っております。 > >> > >>> > > >> > >>> > こちらを参考にさせていただき、PostgreSQLを冗長化すべく作業をしておりま > >> > >>> > す。設定も構成も同じで構築しております。 > >> > >>> > > >> > >>> > >> > >>> > https://github.com/t-matsuo/resource-agents/wiki/PostgreSQL-9.1-%E3%82% > >> > >>> > >> > >>> > B9%E3%83%88%E3%83%AA%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%AC%E3%83% > >> > >>> > >> > >>> > 97%E3%83%AA%E3%82%B1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E5%AF%BE%E5%BF% > >> > >>> > >> > >>> > 9C-%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9%E3%82%A8%E3%83%BC%E3%82%B8%E3%82 > >> > >>> %A7%E3%83%B3%E3%83%88 > >> > >>> > > >> > >>> > > >> > >>> > > >> > >>> 現在、本番稼働中のサーバー(ptdb01)はそのままで、新サーバー(ptdb02)を > >> > >>> Master機として構築、しばらくptdb02のみで稼働させて、問題なければptdb01を > >> > >>> 停止し、ptdb01に同環境をインストールした後にスレーブ機として追加して、最 > >> > >>> 終的に上記参考のようなMater/Slave構成にしたいと考えております。 > >> > >>> > > >> > >>> > > >> > >>> ptdb02にPacemaker1.0.13-1.1とPostgreSQL9.2.4をインストールし、6月13日に > >> > >>> 無事に稼働したのを確認いたしました。 > >> > >>> > OSはCentOS5です。 > >> > >>> > また、pacemaker稼働中にcrm configure のedit > >> > >>> > でvip-masterを変更するテストをしたのですが、その時はきちんと変更されて > >> > >>> > 稼働しました。 > >> > >>> > > >> > >>> > vip-masterからのデータベースへのアクセスも問題なくできていました。 > >> > >>> > > >> > >>> > ところが、今朝モニターしてみると以下のような表示になり、vip-masterにア > >> > >>> > クセスできなくなっていました。 > >> > >>> > > >> > >>> > ============ > >> > >>> > Last updated: Mon Jun 17 09:29:32 2013 > >> > >>> > Stack: Heartbeat > >> > >>> > Current DC: ptdb02.localdomain > >> > >>> > (2dfbfb70-566a-400c-b378-62917dee7e9e) > >> > >>> > - > >> > >>> > partition with quorum > >> > >>> > Version: 1.0.13-30bb726 > >> > >>> > 1 Nodes configured, unknown expected votes > >> > >>> > 4 Resources configured. > >> > >>> > ============ > >> > >>> > Online: [ ptdb02.localdomain ] > >> > >>> > vip-slave (ocf::heartbeat:IPaddr2): Started > >> > >>> ptdb02.localdomain > >> > >>> > Master/Slave Set: msPostgresql > >> > >>> > Masters: [ ptdb02.localdomain ] > >> > >>> > Stopped: [ pgsql:1 ] > >> > >>> > Clone Set: clnPingCheck > >> > >>> > Started: [ ptdb02.localdomain ] > >> > >>> > Node Attributes: > >> > >>> > * Node ptdb02.localdomain: > >> > >>> > + default_ping_set : 100 > >> > >>> > + master-pgsql:0 : 1000 > >> > >>> > + pgsql-data-status : LATEST > >> > >>> > + pgsql-master-baseline : 0000000755000080 > >> > >>> > + pgsql-status : PRI > >> > >>> > Failed actions: > >> > >>> > vip-master_monitor_10000 (node=ptdb02.localdomain, call=19, > >> > >>> > rc=6, > >> > >>> > status=complete): not configured > >> > >>> > > >> > >>> > > >> > >>> > ha-logを確認したところ6月15日の20:22にvip-masterが止まっていました。 > >> > >>> > 該当箇所は以下の通りです。 > >> > >>> > > >> > >>> > Jun 15 20:22:48 ptdb02 cib: [19850]: info: cib_stats: Processed > >> > >>> > 2169 > >> > >>> > operations (3416.00us average, 1% utilization) in the last 10min > >> > >>> > Jun 15 20:23:28 ptdb02 IPaddr2(vip-master)[30902]: ERROR: > Unknown > >> > >>> interface > >> > >>> > [eth0] No such device. > >> > >>> > IPaddr2(vip-master)[30902]: 2013/06/15_20:23:28 ERROR: Unknown > >> > >>> interface > >> > >>> > [eth0] No such device. > >> > >>> > Jun 15 20:23:28 ptdb02 IPaddr2(vip-master)[30902]: ERROR: > [findif] > >> > >>> failed > >> > >>> > IPaddr2(vip-master)[30902]: 2013/06/15_20:23:28 ERROR: [findif] > >> > >>> > failed > >> > >>> > Jun 15 20:23:28 ptdb02 crmd: [19854]: info: process_lrm_event: > LRM > >> > >>> operation > >> > >>> > vip-master_monitor_10000 (call=19, rc=6, cib-update=250, > >> > >>> confirmed=false) > >> > >>> > not configured > >> > >>> > Jun 15 20:23:28 ptdb02.localdomain crmd: [19854]: info: > >> > >>> process_lrm_event: > >> > >>> > LRM operation vip-master_monitor_10000 (call=19, rc=6, > >> > >>> > cib-update=250, > >> > >>> > confirmed=false) not configured > >> > >>> > > >> > >>> > 以上です。 > >> > >>> > > >> > >>> > なお、6月14日から6月17日の朝までは誰もptdb02にアクセスはしておりません。 > >> > >>> > > >> > >>> > お忙しいところ恐縮ですが、こちらの原因と対処方法などについてご教授いた > >> > >>> > だけますとありがたいです。 > >> > >>> > > >> > >>> > ほかに必要な情報等あれば、ご指示いただければと思います。 > >> > >>> > > >> > >>> > 以上、よろしくお願い申し上げます。 > >> > >>> > > >> > >>> > > >> > >>> > > >> > >>> > _______________________________________________ > >> > >>> > Linux-ha-japan mailing list > >> > >>> > Linux****@lists***** > >> > >>> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > >>> > > >> > >>> _______________________________________________ > >> > >>> Linux-ha-japan mailing list > >> > >>> Linux****@lists***** > >> > >>> > ---html-part included links------- > >> > mailto:butch****@gmail***** > >> > mailto:matsu****@gmail***** > >> > mailto:Linux****@lists***** > >> > > >> > > -------------------------------text/plain------------------------------- > >> > _______________________________________________ > >> > Linux-ha-japan mailing list > >> > Linux****@lists***** > >> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > >> _______________________________________________ > >> Linux-ha-japan mailing list > >> Linux****@lists***** > >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > _______________________________________________ > Linux-ha-japan mailing list > Linux****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > -------------- next part -------------- HTMLの添付ファイルを保管しました... Télécharger