あきやまじろう
mayam****@gmail*****
2015年 2月 17日 (火) 14:13:46 JST
久保様 あきやまです。 messagesログの詳細な解説ありがとうございます。 > なお、貼り付けていただいたログの範囲内では、スプリットブレインは起こって > いません。単に一時的にネットワーク障害か何かの原因で、レプリケーションが > 途切れただけです。 セカンダリ側のログがプライマリの内容になっていました。申し訳ございません。 以下の「Split-Brain detected but unresolved, dropping connection!」よりスプリットブレインと判断しました。 【セカンダリ側のmessagesログ】 Feb 16 18:00:04 server2 kernel: block drbd0: sock_recvmsg returned -110 Feb 16 18:00:04 server2 kernel: block drbd0: peer( Primary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown ) Feb 16 18:00:04 server2 kernel: block drbd0: asender terminated Feb 16 18:00:04 server2 kernel: block drbd0: Terminating drbd0_asender Feb 16 18:00:04 server2 kernel: block drbd0: Connection closed Feb 16 18:00:04 server2 kernel: block drbd0: conn( NetworkFailure -> Unconnected ) Feb 16 18:00:04 server2 kernel: block drbd0: receiver terminated Feb 16 18:00:04 server2 kernel: block drbd0: Restarting drbd0_receiver Feb 16 18:00:04 server2 kernel: block drbd0: receiver (re)started Feb 16 18:00:04 server2 kernel: block drbd0: conn( Unconnected -> WFConnection ) Feb 16 18:00:26 server2 kernel: block drbd0: role( Secondary -> Primary ) Feb 16 18:00:26 server2 kernel: block drbd0: new current UUID 2F15B4CF1A2353F7:1CC1ED4094EA9EB6:9A0088783FE79A74:99FF88783FE79A75 Feb 16 18:00:27 server2 kernel: block drbd0: Handshake successful: Agreed network protocol version 97 Feb 16 18:00:27 server2 kernel: block drbd0: conn( WFConnection -> WFReportParams ) Feb 16 18:00:27 server2 kernel: block drbd0: Starting asender thread (from drbd0_receiver [1961]) Feb 16 18:00:27 server2 kernel: block drbd0: data-integrity-alg: <not-used> Feb 16 18:00:27 server2 kernel: block drbd0: drbd_sync_handshake: Feb 16 18:00:27 server2 kernel: block drbd0: self 2F15B4CF1A2353F7:1CC1ED4094EA9EB6:9A0088783FE79A74:99FF88783FE79A75 bits:0 flags:0 Feb 16 18:00:27 server2 kernel: block drbd0: peer 626E92ABB7AC7487:1CC1ED4094EA9EB7:9A0088783FE79A75:99FF88783FE79A75 bits:670 flags:0 Feb 16 18:00:27 server2 kernel: block drbd0: uuid_compare()=100 by rule 90 Feb 16 18:00:27 server2 kernel: block drbd0: helper command: /sbin/drbdadm initial-split-brain minor-0 Feb 16 18:00:27 server2 kernel: block drbd0: helper command: /sbin/drbdadm initial-split-brain minor-0 exit code 0 (0x0) Feb 16 18:00:27 server2 kernel: block drbd0: Split-Brain detected but unresolved, dropping connection! Feb 16 18:00:27 server2 kernel: block drbd0: helper command: /sbin/drbdadm split-brain minor-0 Feb 16 18:00:27 server2 kernel: block drbd0: helper command: /sbin/drbdadm split-brain minor-0 exit code 0 (0x0) Feb 16 18:00:27 server2 kernel: block drbd0: conn( WFReportParams -> Disconnecting ) Feb 16 18:00:27 server2 kernel: block drbd0: error receiving ReportState, l: 4! Feb 16 18:00:27 server2 kernel: block drbd0: asender terminated Feb 16 18:00:27 server2 kernel: block drbd0: Terminating drbd0_asender Feb 16 18:00:27 server2 kernel: block drbd0: Connection closed Feb 16 18:00:27 server2 kernel: block drbd0: conn( Disconnecting -> StandAlone ) Feb 16 18:00:27 server2 kernel: block drbd0: receiver terminated Feb 16 18:00:27 server2 kernel: block drbd0: Terminating drbd0_receiver Feb 16 18:02:28 server2 kernel: block drbd0: role( Primary -> Secondary ) Feb 16 18:02:28 server2 kernel: block drbd0: bitmap WRITE of 0 pages took 0 jiffies Feb 16 18:02:28 server2 kernel: block drbd0: 0 KB (0 bits) marked out-of-sync by on disk bit-map. 2015年2月17日 13:34 Motoharu Kubo <mkubo****@3ware*****>: > あきやまさん > > 久保と申します。 > > corosyncのログのメッセージに関して山内さんが指摘されましたが、DRBDの挙動 > の面からも、何らかの通信障害が起こったように見受けられます。 > > ネットワークの挙動を詳細にチェックする必要がありそうです。もしも仮想環境 > なら、他のゲストOSが高負荷になってしわ寄せを受けた可能性もレビューされる > といいかと思います。 > > なお、貼り付けていただいたログの範囲内では、スプリットブレインは起こって > いません。単に一時的にネットワーク障害か何かの原因で、レプリケーションが > 途切れただけです。 > > プライマリ側のmessagesログについて、DRBDからの特徴的なメッセージを抜き出 > して、注釈を書いてみました。 > > > Feb 16 18:00:05 server1 kernel: block drbd0: short read expecting header > > on sock: r=-110 > > 不完全なデータしか読み込めなかったという通信障害を検出。 > > > Feb 16 18:00:05 server1 kernel: block drbd0: receiver terminated > > DRBDはコネクションを切断 > > > Feb 16 18:00:05 server1 kernel: block drbd0: Restarting drbd0_receiver > > DRBDは新たな接続を開始しようとした > > 次のメッセージとの間に23秒ほどブランクがあります。通常DRBDはただちに再接 > 続を試みるので、このブランクは少々不可解です。 > > > Feb 16 18:00:28 server1 kernel: block drbd0: Handshake successful: > > Agreed network protocol version 97 > > セカンダリ側とのコネクションを再度確立した。レプリケーション再開のための > 初期の手続きをこれから開始する > > > Feb 16 18:00:28 server1 kernel: block drbd0: meta connection shut down > > by peer. > > 初期手続き中に相手からコネクションを切断された。これも通信障害に相当 > > > Feb 16 18:00:30 server1 kernel: block drbd0: receiver terminated > > コネクションを切断 > > > Feb 16 18:00:30 server1 kernel: block drbd0: Restarting drbd0_receiver > > DRBDは新たな接続を開始しようとした > > -- > ---------------------------------------------------------------------- > 久保 元治 (株)サードウェア > > _______________________________________________ > Linux-ha-japan mailing list > Linux****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > -------------- next part -------------- HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B... Télécharger