[Linux-ha-jp] DRBDスプリットブレインの発生原因に関して

Back to archive index

あきやまじろう mayam****@gmail*****
2015年 2月 17日 (火) 14:13:46 JST


久保様

あきやまです。

messagesログの詳細な解説ありがとうございます。

> なお、貼り付けていただいたログの範囲内では、スプリットブレインは起こって
> いません。単に一時的にネットワーク障害か何かの原因で、レプリケーションが
> 途切れただけです。
セカンダリ側のログがプライマリの内容になっていました。申し訳ございません。
以下の「Split-Brain detected but unresolved, dropping
connection!」よりスプリットブレインと判断しました。

【セカンダリ側のmessagesログ】
Feb 16 18:00:04 server2 kernel: block drbd0: sock_recvmsg returned -110
Feb 16 18:00:04 server2 kernel: block drbd0: peer( Primary -> Unknown )
conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown )
Feb 16 18:00:04 server2 kernel: block drbd0: asender terminated
Feb 16 18:00:04 server2 kernel: block drbd0: Terminating drbd0_asender
Feb 16 18:00:04 server2 kernel: block drbd0: Connection closed
Feb 16 18:00:04 server2 kernel: block drbd0: conn( NetworkFailure ->
Unconnected )
Feb 16 18:00:04 server2 kernel: block drbd0: receiver terminated
Feb 16 18:00:04 server2 kernel: block drbd0: Restarting drbd0_receiver
Feb 16 18:00:04 server2 kernel: block drbd0: receiver (re)started
Feb 16 18:00:04 server2 kernel: block drbd0: conn( Unconnected ->
WFConnection )
Feb 16 18:00:26 server2 kernel: block drbd0: role( Secondary -> Primary )
Feb 16 18:00:26 server2 kernel: block drbd0: new current UUID
2F15B4CF1A2353F7:1CC1ED4094EA9EB6:9A0088783FE79A74:99FF88783FE79A75
Feb 16 18:00:27 server2 kernel: block drbd0: Handshake successful: Agreed
network protocol version 97
Feb 16 18:00:27 server2 kernel: block drbd0: conn( WFConnection ->
WFReportParams )
Feb 16 18:00:27 server2 kernel: block drbd0: Starting asender thread (from
drbd0_receiver [1961])
Feb 16 18:00:27 server2 kernel: block drbd0: data-integrity-alg: <not-used>
Feb 16 18:00:27 server2 kernel: block drbd0: drbd_sync_handshake:
Feb 16 18:00:27 server2 kernel: block drbd0: self
2F15B4CF1A2353F7:1CC1ED4094EA9EB6:9A0088783FE79A74:99FF88783FE79A75 bits:0
flags:0
Feb 16 18:00:27 server2 kernel: block drbd0: peer
626E92ABB7AC7487:1CC1ED4094EA9EB7:9A0088783FE79A75:99FF88783FE79A75
bits:670 flags:0
Feb 16 18:00:27 server2 kernel: block drbd0: uuid_compare()=100 by rule 90
Feb 16 18:00:27 server2 kernel: block drbd0: helper command: /sbin/drbdadm
initial-split-brain minor-0
Feb 16 18:00:27 server2 kernel: block drbd0: helper command: /sbin/drbdadm
initial-split-brain minor-0 exit code 0 (0x0)
Feb 16 18:00:27 server2 kernel: block drbd0: Split-Brain detected but
unresolved, dropping connection!
Feb 16 18:00:27 server2 kernel: block drbd0: helper command: /sbin/drbdadm
split-brain minor-0
Feb 16 18:00:27 server2 kernel: block drbd0: helper command: /sbin/drbdadm
split-brain minor-0 exit code 0 (0x0)
Feb 16 18:00:27 server2 kernel: block drbd0: conn( WFReportParams ->
Disconnecting )
Feb 16 18:00:27 server2 kernel: block drbd0: error receiving ReportState,
l: 4!
Feb 16 18:00:27 server2 kernel: block drbd0: asender terminated
Feb 16 18:00:27 server2 kernel: block drbd0: Terminating drbd0_asender
Feb 16 18:00:27 server2 kernel: block drbd0: Connection closed
Feb 16 18:00:27 server2 kernel: block drbd0: conn( Disconnecting ->
StandAlone )
Feb 16 18:00:27 server2 kernel: block drbd0: receiver terminated
Feb 16 18:00:27 server2 kernel: block drbd0: Terminating drbd0_receiver
Feb 16 18:02:28 server2 kernel: block drbd0: role( Primary -> Secondary )
Feb 16 18:02:28 server2 kernel: block drbd0: bitmap WRITE of 0 pages took 0
jiffies
Feb 16 18:02:28 server2 kernel: block drbd0: 0 KB (0 bits) marked
out-of-sync by on disk bit-map.

2015年2月17日 13:34 Motoharu Kubo <mkubo****@3ware*****>:

> あきやまさん
>
> 久保と申します。
>
> corosyncのログのメッセージに関して山内さんが指摘されましたが、DRBDの挙動
> の面からも、何らかの通信障害が起こったように見受けられます。
>
> ネットワークの挙動を詳細にチェックする必要がありそうです。もしも仮想環境
> なら、他のゲストOSが高負荷になってしわ寄せを受けた可能性もレビューされる
> といいかと思います。
>
> なお、貼り付けていただいたログの範囲内では、スプリットブレインは起こって
> いません。単に一時的にネットワーク障害か何かの原因で、レプリケーションが
> 途切れただけです。
>
> プライマリ側のmessagesログについて、DRBDからの特徴的なメッセージを抜き出
> して、注釈を書いてみました。
>
> > Feb 16 18:00:05 server1 kernel: block drbd0: short read expecting header
> > on sock: r=-110
>
> 不完全なデータしか読み込めなかったという通信障害を検出。
>
> > Feb 16 18:00:05 server1 kernel: block drbd0: receiver terminated
>
> DRBDはコネクションを切断
>
> > Feb 16 18:00:05 server1 kernel: block drbd0: Restarting drbd0_receiver
>
> DRBDは新たな接続を開始しようとした
>
> 次のメッセージとの間に23秒ほどブランクがあります。通常DRBDはただちに再接
> 続を試みるので、このブランクは少々不可解です。
>
> > Feb 16 18:00:28 server1 kernel: block drbd0: Handshake successful:
> > Agreed network protocol version 97
>
> セカンダリ側とのコネクションを再度確立した。レプリケーション再開のための
> 初期の手続きをこれから開始する
>
> > Feb 16 18:00:28 server1 kernel: block drbd0: meta connection shut down
> > by peer.
>
> 初期手続き中に相手からコネクションを切断された。これも通信障害に相当
>
> > Feb 16 18:00:30 server1 kernel: block drbd0: receiver terminated
>
> コネクションを切断
>
> > Feb 16 18:00:30 server1 kernel: block drbd0: Restarting drbd0_receiver
>
> DRBDは新たな接続を開始しようとした
>
> --
> ----------------------------------------------------------------------
> 久保  元治             (株)サードウェア
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>
-------------- next part --------------
HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...
Télécharger 



Linux-ha-japan メーリングリストの案内
Back to archive index