Wada, Shinichirou
wada.****@jp*****
2013年 11月 7日 (木) 16:30:19 JST
山内さん みなさん こんにちは。 和田です。 色々とサポートおよびフィードバックのメールありがとうございました。 >山内さん > To 和田さん:補足などありましたら、宜しくお願いいたします。 補足というほどでもないのですが、山内さんのメールにあるように、パッチ適用等を行うと 保守面が難しいため、アプリケーション側で障害を検知する仕組みを設け、 障害発生時には該当ノードを停止することでサーバ切替を行うこととしました。 #本事象はcorosyncを停止すればうまく切り替わるため。 少し残念な結果でしたが、早く安定版で問題が解決することを期待しておきます。 よろしくお願い致します。 > -----Original Message----- > From: linux****@lists***** [mailto:linux****@lists*****] On Behalf Of > renay****@ybb***** > Sent: Thursday, November 07, 2013 12:53 PM > To: linux****@lists***** > Subject: Re: [Linux-ha-jp] Active/Passive構成およびN+1構成の共存環境での挙動について > > みなさん > 和田さん > > こんにちは、山内です。 > > 和田さんからご相談を頂いた本事象について、動作の注意点としてフィードバックしておきます。 > > 本事象の原因ですが以下が原因となっています。 > > Masterリソースとgroupリソース間のcolocationを組んでいる為に、SlaveからMasterに切り替え後のMasterの故障から、再度 > の切り替わりが起こらない > →この事象が起きると、再度の切り替わり時にMaster/Slaveリソースの入れ替わりが続き、再度の切り替えが完了しません。 > > この事象を解消する為には、Masterリソースのclone-maxを指定しない事が必要です。 > > ただし、和田さんの環境で使われているdrbdリソースは、clone-maxを2で指定しないとエラーとなる為、上記の設定では、エラ > ーが発生しリソース自体を構成できません。 > #和田さんの環境は4ノード構成ですので、clone-maxを指定しない場合、内部的にclone-maxはノード数(4)で処理されてしま > います。 > > 上記の結果から、現状、和田さんの構成では、再度の切り替えをうまく行う設定が現状はありません。(パッチなどを適用した場合 > は可能ですが、保守的な面で難しい可能性がある) > > 整理すると、本事象は、colocatoion設定を持つdrbdリソースを複数ノード上(3ノード以上)に2ノード構築した場合発生する > 事象で、 > > ①colocationをmaster/slaveリソースと組む場合に、master/slaveリソースのclone-maxは指定しない(ノード数でclone-max > は自動セットされる) > ②drbdリソースは、clone-max=2である必要がある。 > > ①②の同居が不可能な為、発生します。 > > なお、Statefulリソースで試して所(drbdのようなclone-maxの制約はない)、和田さんの構成でもとりあえずうまく動作すること > が確認できています。 > > また、PM1.1系(次世代のPacemaker)では、Master/Slaveリソースのclone-maxを指定してもうまく制御は行われるようです。 > #たぶん、Cloneリソースも同様にclone-maxを指定しても問題ないと思われます。 > > よって、Pacemaker1.0系でdrbdを複数ノード(3ノード以上)に2ノード構築する場合には、切り替え動作がうまく動作しないこ > とになりますので、ご注意ください。 > > To 和田さん:補足などありましたら、宜しくお願いいたします。 > > 以上です。 > > > > > > > > > > > --- On Wed, 2013/10/30, Wada, Shinichirou <wada.****@jp*****> wrote: > > > 山内さん > > > > こんにちは。 > > 和田です。 > > > > いつもありがとうございます。 > > > > > > しかし、上記の例でいうと、it202からit201への切り替えが > > > > うまくできませんでした。 > > > > > > ちなみにこの切り替え手順はどのようなオペレーションをされましたでしょうか? > > > 念の為、切り戻しまでのノードの状態や手順を教えてください。 > > > #下記にpostgreSQLのKILLとありますが、it201へ切り替える場合はit201は再起動をされたように見えますが・・・ > > > > Postgresをkillしています。(のつもりです。。) > > わかりづらくて申し訳ないのですが、it201→it202へ切替が適切に行えることの確認も > > 行いましたのでログが混ざっているためかと思います。 > > 10/28 13:33:30ごろ切替を行っていますので、それ以前の時間帯であれば、it201の再起動は > > 行っています。 > > > > なお、事象発生後、corosyncの停止をすると適切に切り替わるようです。 > > (cloneリソースで発生していたときと同様です。) > > > > crm_mon -Aで監視していたときのログを添付致します。 > > > > > > 挙動で、今度はgroupのリソースが再起動を繰り返しているように > > > > 見えています。 > > > > > > ちょっと、ログを拝見したのですが・・・ > > > どうやら、drbdのリソースがit202とit201間入れ替わり起こし続けているようです。 > > > たぶん、これはcolocation関連の影響かと思われます。 > > > > 申し訳ありません。 > > 記述が誤っていました。 > > groupのリソースではなく、上記に記載していただいたとおりdrbdのリソースとなります。 > > > > > > master-node-maxの設定があったため、clone-node-maxの設定の削除も行ったのですが > > > > 同様でした。 > > > > > > monitor_0でのnot configuredなのでこれはまた別の問題のような気がしますが・・・ > > > 詳細はログをお送り頂いた内容で、確認してみます。 > > > > 了解しました。 > > こちらは別のログ(昨日のsyslogには入ってない)となっていますので、わかる形で別途送付するようにします。 > > > > > できれば個別に私メールアドレスの方にでも送っていただると助かります。 > > > もし、可能であればDCノード以外のログも送ってい頂けるとありがたいのですが。。。 > > > #ファイルサイズがかなり大きいのであれば、何かの分割ソフトで分割して送って頂いた方がよいかも知れません。 > > > > 了解しました。 > > 分割するなどして、ログを送付するようにします。 > > > > よろしくお願い致します。 > > > > > -----Original Message----- > > > From: linux****@lists***** > > > [mailto:linux****@lists*****] On Behalf Of > > > renay****@ybb***** > > > Sent: Wednesday, October 30, 2013 9:31 AM > > > To: linux****@lists***** > > > Subject: Re: [Linux-ha-jp] Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > 和田さん > > > > > > こんにちは、山内です。 > > > > > > > 表題の件ですが、前回、質問させて頂いたときに確認が不十分で > > > > うまく動作しないケースがありました。 > > > > 時間が空いてしまって申し訳ございませんが、再度質問をさせてください。 > > > > > > > > 構成情報を再掲しておきますと、以下になります。 > > > > #詳細は添付ファイルをご確認ください。 > > > > > > > > ┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┓ > > > > ┃┌─────┐ ┃┌─────┐ ┃ ┃│group_all │ > > > > ┃│ cln_all │ ┃ ┃└─────┘ ┃└─────┘ > > > > ┃ ┃┌───────────┐┃ ┃ ┃│ drbd_db > > > > │ > > > ┃ > > > > ┃ ┃├─────┬─────┤┃ ┃ ┃│ Master │ Slave > > > > │ > > > ┃ > > > > ┃ ┃└─────┴─────┘┃ ┃ > > > > ┃┌─────┬─────┐┃┌─────┬─────┐┃ ┃│ clnPing1 │ clnPing1 │┃│ clnPing2 > > > > │ > > > > clnPing2 │┃ ┃└─────┴─────┘┃└─────┴─────┘┃ > > > > ┣━━━━━━┳━━━━━━╋━━━━━━┳━━━━━━┫ ┃ it201 ┃ it202 ┃ it203 > > > > ┃ > > > > it204 ┃ ┣━━━━━━┻━━━━━━╋━━━━━━┻━━━━━━┫ ┃ Active/Passive構成 ┃ > > > > N+1構成 ┃ ┗━━━━━━━━━━━━━┻━━━━━━━━━━━━━┛ > > > > > > > > cloneリソースのclone-maxを削除することで上記の構成例の > > > > it201からit202への切り替えはうまくできるようになりました。 > > > > > > > > しかし、上記の例でいうと、it202からit201への切り替えが > > > > うまくできませんでした。 > > > > > > ちなみにこの切り替え手順はどのようなオペレーションをされましたでしょうか? > > > 念の為、切り戻しまでのノードの状態や手順を教えてください。 > > > #下記にpostgreSQLのKILLとありますが、it201へ切り替える場合はit201は再起動をされたように見えますが・・・ > > > > > > > > > > > cloneリソースのclone-maxが入っているときと同じような > > > > 挙動で、今度はgroupのリソースが再起動を繰り返しているように > > > > 見えています。 > > > > > > ちょっと、ログを拝見したのですが・・・ > > > どうやら、drbdのリソースがit202とit201間入れ替わり起こし続けているようです。 > > > たぶん、これはcolocation関連の影響かと思われます。 > > > > > > > > > > 従いまして、cloneのリソースと同じようにgroupのclone-maxの > > > > 削除を行ったのですが、 > > > > > > > > Failed actions: > > > > drbd_db:0_monitor_0 (node=it201, call=5, rc=6, status=complete): > > > > not configured > > > > drbd_db:1_monitor_0 (node=it202, call=5, rc=6, status=complete): > > > > not configured > > > > > > > > と表示され、うまく起動できませんでした。 > > > > master-node-maxの設定があったため、clone-node-maxの設定の削除も行ったのですが > > > > 同様でした。 > > > > > > monitor_0でのnot configuredなのでこれはまた別の問題のような気がしますが・・・ > > > 詳細はログをお送り頂いた内容で、確認してみます。 > > > > > > > 上記のような状況なのですが、回避方法等ございますでしょうか? > > > > > > > > 該当事象発生時のDCのSyslogを一緒に添付しておきます。 > > > > 10/28 13:33:30に、postgresqlをkillしています。 > > > > > > > > なお、peファイルにつきましては、以前ご教示頂いた箇所だけでも250K弱になりましたので > > > > MLに送付するのは少し大きいかと思い添付を見送っています。 > > > > 必要そうでしたら個別に送付させて頂きたいと考えています。 > > > > > > > > いつも質問ばかりで恐縮ですが、よろしくお願い致します。 > > > > > > できれば個別に私メールアドレスの方にでも送っていただると助かります。 > > > もし、可能であればDCノード以外のログも送ってい頂けるとありがたいのですが。。。 > > > #ファイルサイズがかなり大きいのであれば、何かの分割ソフトで分割して送って頂いた方がよいかも知れません。 > > > > > > 以上、宜しくお願いいたします。 > > > > > > > > > > > > -----Original Message----- > > > > > From: linux****@lists***** > > > > > [mailto:linux****@lists*****] On Behalf > > > > > Of Wada, Shinichirou > > > > > Sent: Wednesday, September 18, 2013 5:47 PM > > > > > To: linux****@lists***** > > > > > Subject: Re: [Linux-ha-jp] Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > 山内さん > > > > > > > > > > こんにちは。 > > > > > 和田です。 > > > > > > > > > > 追加情報ありがとうございました。 > > > > > > > > > > なるほど。 > > > > > groupとcolocationを組んだcloneのclone-maxがノード数と一致しない場合がポイントなのですね。 > > > > > > > > > > clone-maxを指定するときには注意が必要なのですね。 > > > > > 表示だけであれば、確かに、clone-maxは指定しないほうが無難そうですね。 > > > > > 参考にさせて頂きます。 > > > > > > > > > > 色々とご教示していただき、ありがとうございました。 > > > > > > > > > > > -----Original Message----- > > > > > > From: linux****@lists***** > > > > > > [mailto:linux****@lists*****] On Behalf > > > > > > Of renay****@ybb***** > > > > > > Sent: Wednesday, September 18, 2013 4:55 PM > > > > > > To: linux****@lists***** > > > > > > Subject: Re: [Linux-ha-jp] > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > 和田さん > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > 了解いたしました。 > > > > > > > > > > > > ちなみに・・・・ > > > > > > groupとcolocationを組んだcloneのclone-maxがノード数と一致しない場合には、今回の事象は起きますが・・・・ > > > > > > primitive、cloneとcolocationを組んだcloneの場合には、今回の事象は起きません。 > > > > > > #たぶん、master/slaveも起きないと思います。 > > > > > > > > > > > > ですので、和田さんの、cln_allリソースの故障では、うまく動作していたことになります。 > > > > > > > > > > > > このあたりは、確かドキュメントにも書かれていないので注意が必要ですね。 > > > > > > > > > > > > 基本的には、cloneのclone-maxについては、指定しないでおいた方が無難かと思います。 > > > > > > #指定しないで、配置しないノードにlocation -INFを付ける形。。。。 > > > > > > > > > > > > 以上、宜しくお願いいたします。 > > > > > > > > > > > > > > > > > > --- On Wed, 2013/9/18, Wada, Shinichirou <wada.****@jp*****> wrote: > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > こんにちは。 > > > > > > > 和田です。 > > > > > > > > > > > > > > お忙しいところご確認いただきありがとうございました。 > > > > > > > > > > > > > > 表示形式は今とあまり変えたくないので、とりあえずは今のままにしたいと > > > > > > > 考えています。 > > > > > > > #表示だけですし。。 > > > > > > > > > > > > > > また、質問等させていただくことがあるかと思いますが、 > > > > > > > どうぞよろしくお願い致します。 > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > From: linux****@lists***** > > > > > > > > [mailto:linux****@lists*****] On > > > > > > > > Behalf Of renay****@ybb***** > > > > > > > > Sent: Wednesday, September 18, 2013 2:02 PM > > > > > > > > To: linux****@lists***** > > > > > > > > Subject: Re: [Linux-ha-jp] > > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > > > > > 和田さん > > > > > > > > > > > > > > > > こんにちは。山内です。 > > > > > > > > > > > > > > > > 表示の方法ですが、結論から言いますと・・・・通常表示の形式で、オプションなどでは、出来ないようです。 > > > > > > > > > > > > > > > > 1)通常表示(Stoppedが表示される) > > > > > > > > > > > > > > > > Online: [ rh64-heartbeat1 rh64-heartbeat2 ] > > > > > > > > > > > > > > > > Clone Set: msPostgresql > > > > > > > > Started: [ rh64-heartbeat1 ] > > > > > > > > Stopped: [ dummy:1 ] > > > > > > > > > > > > > > > > 2)ノード・グループ表示(Stopppedは表示されない。。。ですが、雰囲気は変わります) > > > > > > > > [root @ rh64-heartbeat1 ~]# crm_mon -1n ============ Last updated: > > > > > > > > Wed Sep 18 22:30:54 2013 > > > > > > > > Stack: Heartbeat > > > > > > > > Current DC: rh64-heartbeat2 > > > > > > > > (3c044f5e-3420-495e-8754-ced13e99dd88) > > > > > > > > - partition with quorum > > > > > > > > Version: 1.0.13-9227e89 > > > > > > > > 2 Nodes configured, unknown expected votes > > > > > > > > 1 Resources configured. > > > > > > > > ============ > > > > > > > > > > > > > > > > Node rh64-heartbeat1 (761d3a55-9953-4576-8556-36b3f451338a): > > > > > > > >online > > > > > > > > dummy:0 (ocf::pacemaker:Stateful): Started > > > > > > > >Node > > > > > > > >rh64-heartbeat2 (3c044f5e-3420-495e-8754-ced13e99dd88): > > > > > > > >online > > > > > > > > > > > > > > > > 3)grepなどで加工(Stopppedは表示されない。。。。ただし、リソース構成によっては非常に見ずらくなったりす > > > > > > > > るかも > > > し > > > > > > > > れ > > > > > ま > > > > > > せん。 > > > > > > > > また、実際に止まっているソースの表示が確認できなくなったりと・・・弊害が多いと思います。) > > > > > > > > > > > > > > > > [root @ rh64-heartbeat1 ~]# crm_mon -1 | grep -v Stopped > > > > > > > > ============ Last updated: Wed Sep 18 22:33:00 2013 > > > > > > > > Stack: Heartbeat > > > > > > > > Current DC: rh64-heartbeat2 > > > > > > > > (3c044f5e-3420-495e-8754-ced13e99dd88) > > > > > > > > - partition with quorum > > > > > > > > Version: 1.0.13-9227e89 > > > > > > > > 2 Nodes configured, unknown expected votes > > > > > > > > 1 Resources configured. > > > > > > > > ============ > > > > > > > > > > > > > > > > Online: [ rh64-heartbeat1 rh64-heartbeat2 ] > > > > > > > > > > > > > > > > Clone Set: msPostgresql > > > > > > > > Started: [ rh64-heartbeat1 ] > > > > > > > > > > > > > > > > 処理上(ソース上)も、そのようになっているようです。 > > > > > > > > > > > > > > > > 以上です。 > > > > > > > > > > > > > > > > --- On Tue, 2013/9/17, Wada, Shinichirou <wada.****@jp*****> wrote: > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > こんばんは。 > > > > > > > > > 和田です。 > > > > > > > > > > > > > > > > > > いつもありがとうございます。 > > > > > > > > > > > > > > > > > > ログの件につきましては承知致しました。 > > > > > > > > > もし、送付することがあった場合にはそのように致します。 > > > > > > > > > > > > > > > > > > また、簡単な構成でご確認いただけるとのことで大変助かります。 > > > > > > > > > もし、回避方法等見つかりましたらご教示のほどよろしくお願い致します。 > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > From: linux****@lists***** > > > > > > > > > > [mailto:linux****@lists*****] > > > > > > > > > > On Behalf Of renay****@ybb***** > > > > > > > > > > Sent: Tuesday, September 17, 2013 10:26 PM > > > > > > > > > > To: linux****@lists***** > > > > > > > > > > Subject: Re: [Linux-ha-jp] > > > > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > > > > > > > > > 和田さん > > > > > > > > > > > > > > > > > > > > こんばんは、山内です。 > > > > > > > > > > > > > > > > > > > > > ただ、今の設定では当たり前かもしれませんが、clone-maxを指定していないため > > > > > > > > > > > Stoppedと起動しない側のリソースで表示されています。 > > > > > > > > > > > これを表示させないようにする方法はございますでしょうか? > > > > > > > > > > > 見た目だけの話ですのでできないようであればあきらめます。。 > > > > > > > > > > > > > > > > > > > > 確か今回の設定の場合では、これは回避できないはずです。 > > > > > > > > > > 一応、私の方でも確認してみます。 > > > > > > > > > > > > > > > > > > > > > なお、ログとpengineにつきましてはサイズが大きいようですので、 > > > > > > > > > > > 確認に必要そうであれば個別に送付させて頂きたいと考えておりますので、 > > > > > > > > > > > お知らせください。 > > > > > > > > > > > また、送付する場合は全リソース分必要という認識なのですがあっているでしょうか? > > > > > > > > > > > > > > > > > > > > いえ、事象事態は解決されたとのことですので、私の方では、もうちょっと簡易な環境でStoppedの表示が回 > 避可 > > > 能か > > > > > だ > > > > > > け確 > > > > > > > > 認し > > > > > > > > > > てみます。 > > > > > > > > > > > > > > > > > > > > ちなみに、もし送付していただくケースの場合ですが、 > > > > > > > > > > 基本的には、事象の起きた時にDCノードでログが出ているpeファイルとログ(DCノードのみ)だけでOKです。 > > > > > > > > > > よって、あまりにも大きくなければ、DCノードのログとpeファイルがあればなんとかなります。 > > > > > > > > > > > > > > > > > > > > また、表示の回避については確認が取れましたら、ご連絡いたします。 > > > > > > > > > > > > > > > > > > > > 以上です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > --- On Tue, 2013/9/17, Wada, Shinichirou <wada.****@jp*****> wrote: > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > > > > > こんばんは。 > > > > > > > > > > > 和田です。 > > > > > > > > > > > > > > > > > > > > > > 確認および連絡が遅くなりました。 > > > > > > > > > > > ご教示いただいた方法で、切り替わることは確認できました。 > > > > > > > > > > > > > > > > > > > > > > ただ、今の設定では当たり前かもしれませんが、clone-maxを指定していないため > > > > > > > > > > > Stoppedと起動しない側のリソースで表示されています。 > > > > > > > > > > > これを表示させないようにする方法はございますでしょうか? > > > > > > > > > > > 見た目だけの話ですのでできないようであればあきらめます。。 > > > > > > > > > > > > > > > > > > > > > > ---- > > > > > > > > > > > Online: [ it201 it202 it203 it204 ] > > > > > > > > > > > > > > > > > > > > > > Resource Group: group_all > > > > > > > > > > > fs_db (ocf::heartbeat:Filesystem): > > > > > > > > > > >Started > > > > > > > > > > >it201 > > > > > > > > > > > prmPg (ocf::heartbeat:pgsql): Started > > > > > > > > > > >it201 > > > > > > > > > > > prmDummy (ocf::heartbeat:Dummy): Started > > > > > > > > > > >it201 Master/Slave Set: ms_drbd_db > > > > > > > > > > > Masters: [ it201 ] > > > > > > > > > > > Slaves: [ it202 ] > > > > > > > > > > > Clone Set: clnPing1 > > > > > > > > > > > Started: [ it201 it202 ] > > > > > > > > > > > Stopped: [ prmPing1:2 prmPing1:3 ] Clone Set: > > > > > > > > > > >clnPing2 > > > > > > > > > > > Started: [ it203 it204 ] > > > > > > > > > > > Stopped: [ prmPing2:2 prmPing2:3 ] Clone Set: > > > > > > > > > > >cln_all > > > > > > > > > > > Started: [ it203 ] > > > > > > > > > > > ---- > > > > > > > > > > > > > > > > > > > > > > なお、ログとpengineにつきましてはサイズが大きいようですので、 > > > > > > > > > > > 確認に必要そうであれば個別に送付させて頂きたいと考えておりますので、 > > > > > > > > > > > お知らせください。 > > > > > > > > > > > また、送付する場合は全リソース分必要という認識なのですがあっているでしょうか? > > > > > > > > > > > > > > > > > > > > > > よろしくお願い致します。 > > > > > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > > > From: linux****@lists***** > > > > > > > > > > > > [mailto:linux****@lists***** > > > > > > > > > > > > p] On Behalf Of Wada, Shinichirou > > > > > > > > > > > > Sent: Friday, September 13, 2013 10:57 PM > > > > > > > > > > > > To: linux****@lists***** > > > > > > > > > > > > Subject: Re: [Linux-ha-jp] > > > > > > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > > > > > > > こんばんは。 > > > > > > > > > > > > 和田です。 > > > > > > > > > > > > > > > > > > > > > > > > いつもありがとうございます。 > > > > > > > > > > > > > > > > > > > > > > > > まだ、試せていないのですが、ご教示いただいた方法で > > > > > > > > > > > > まずは確認してみようと思います。 > > > > > > > > > > > > > > > > > > > > > > > > 確認後に改めて連絡させてもらいます。 > > > > > > > > > > > > > > > > > > > > > > > > よろしくお願いします。 > > > > > > > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > > > > From: > > > > > > > > > > > > > linux****@lists***** > > > > > > > > > > > > > [mailto:linux****@lists***** > > > > > > > > > > > > > .jp] On Behalf Of renay****@ybb***** > > > > > > > > > > > > > Sent: Friday, September 13, 2013 4:22 PM > > > > > > > > > > > > > To: linux****@lists***** > > > > > > > > > > > > > Subject: Re: [Linux-ha-jp] > > > > > > > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > > > > > > > > > > > > > > > 和田さん > > > > > > > > > > > > > > > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > > > > > > > > > > > > > > > 詳細は、事象が発生した時のpeファイルを確認してみないと何とも言えないのですが。。。。 > > > > > > > > > > > > > > > > > > > > > > > > > > さらっと、構成ファイルを見て感じたのですが・・・・・ > > > > > > > > > > > > > > > > > > > > > > > > > > 確かノード数がN数の場合、cloneリソースのclone-maxを設定していると、colocat > > > > > > > > > > > > > ionの > > > > > > > > > > > > > 制御が微 > > > > > > > > > > > > > 妙に変わるはず > > > > > > です。 > > > > > > > > > > > > > この影響で、clonPing1が再起動するの動作になっているのではないでしょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > これを回避する為には、cloneリソースのclone-maxを設定しない方法になります。 > > > > > > > > > > > > > > > > > > > > > > > > > > clone clnPing1 prmPing1 \ > > > > > > > > > > > > > meta clone-node-max="1" > > > > > > > > > > > > > > > > > > > > > > > > > > clone clnPing2 prmPing2 \ > > > > > > > > > > > > > meta clone-node-max="1" > > > > > > > > > > > > > > > > > > > > > > > > > > #設定しない場合は、オンラインノード数で自動セットされますが。。基本的に、書かない場合でも、和 > 田 > > > > > > > > > > > > > さ > > > んの > > > > > 以 > > > > > > 下の > > > > > > > > 設定 > > > > > > > > > > が有 > > > > > > > > > > > > 効 > > > > > > > > > > > > > になるので、正しく配置されるはずです。 > > > > > > > > > > > > > > > > > > > > > > > > > > location rsc_location-clnPing1 clnPing1 \ > > > > > > > > > > > > > rule -INFINITY: #uname eq it203 \ > > > > > > > > > > > > > rule -INFINITY: #uname eq it204 > > > > > > > > > > > > > > > > > > > > > > > > > > location rsc_location-clnPing2 clnPing2 \ > > > > > > > > > > > > > rule -INFINITY: #uname eq it201 \ > > > > > > > > > > > > > rule -INFINITY: #uname eq it202 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ・cln_allに障害が発生した場合は適切に切り替わります。 > > > > > > > > > > > > > こちらに関しては、詳細をみないとわかりませんが・・・ > > > > > > > > > > > > > > > > > > > > > > > > > > 事象が発生した直前あたりからのDCノードのログと、この時のDCノードの/var/lib/peng > > > > > > > > > > > > > ine/ > > > > > > > > > > > > > の内容( > > > > > > > > > > > > > 前述 > > > > > > > > > > > > > のpeファイ > > > > > > > > ル) > > > > > > > > > > > > > を送 > > > > > > > > > > > > っ > > > > > > > > > > > > > ていただければもう少し原因の詳細がわかると思います。 > > > > > > > > > > > > > > > > > > > > > > > > > > 以上です。 > > > > > > > > > > > > > --- On Fri, 2013/9/13, Wada, Shinichirou <wada.****@jp*****> wrote: > > > > > > > > > > > > > > > > > > > > > > > > > > > こんにちは。 > > > > > > > > > > > > > > 和田です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > 久しぶりに質問させて頂きます。 > > > > > > > > > > > > > > どうぞ、よろしくお願い致します。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > > > 障害が発生しても切り替わらないケースがありましたので、 > > > > > > > > > > > > > > ご教示頂ければと考えています。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > ■バージョン情報は以下になります。 > > > > > > > > > > > > > > ・RHEL6.3 > > > > > > > > > > > > > > ・pacemaker-1.0.13-1.1.el6.x86_64.repo.tar.gz > > > > > > > > > > > > > > ※Corosync+Pacemakerの構成しています。 > > > > > > > > > > > > > > ・drbd-8.4.3.tar.gz > > > > > > > > > > > > > > > > > > > > > > > > > > > > なお、旧バージョンでも同じ事象でした。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > ■構成は以下になります。(configファイルを添付しています。) > > > > > > > > > > > > > > ┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┓ ┃┌─────┐ ┃┌───── > > > > > > > > ┐ > > > > > > > > > > > > > > ┃ ┃│group_all │ ┃│ cln_all │ ┃ > > > > > > > > > > > > > > ┃└─────┘ ┃└─────┘ ┃ ┃┌───────────┐┃ > > > > > > > > > > > > > > ┃ ┃│ drbd_db │ > > > > > > > > > > > > > ┃ > > > > > > > > > > > > > > ┃ ┃├─────┬─────┤┃ ┃ > > > > > > > > > > > > > > ┃│ Master │ Slave │ > > > > > > > > > > > > > ┃ > > > > > > > > > > > > > > ┃ ┃└─────┴─────┘┃ ┃ > > > > > > > > > > > > > > ┃┌─────┬─────┐┃┌─────┬─────┐┃ ┃│ clnPing1 │ > > > > > > > > > > > > > > clnPing1 │┃│ > > > > > > > > > > > > > > clnPing2 │ > > > > > > > > > > > > > > clnPing2 │┃ ┃└─────┴─────┘┃└─────┴─────┘┃ > > > > > > > > > > > > > > ┣━━━━━━┳━━━━━━╋━━━━━━┳━━━━━━┫ ┃ it201 ┃ > > > > > > > > > > > > > > it202 ┃ > > > > > > > > > > > > > > it203 ┃ > > > > > > > > > > > > > > it204 ┃ ┣━━━━━━┻━━━━━━╋━━━━━━┻━━━━━━┫ ┃ > > > > > > > > > > > > > > Active/Passive構成 > > > > > > > > > > > > > > ┃ > > > > > > > > > > > > > > N+1構成 ┃ ┗━━━━━━━━━━━━━┻━━━━━━━━━━━━━┛ > > > > > > > > > > > > > > > > > > > > > > > > > > > > 上記の構成をひとつのクラスタとして管理しています。 > > > > > > > > > > > > > > cln_allは今回の構成(ログ)では1つですが、N+1のN個ほど起動させています。 > > > > > > > > > > > > > > Nの台数にかかわらず、下記に記載する事象は同じです。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > ■ご教示頂きたい内容。 > > > > > > > > > > > > > > ・group_allに登録されているリソースに障害が発生しても > > > > > > > > > > > > > > it201/it202のclonPing1が再起動を繰り返し、切替えが行えなえませんでした。 > > > > > > > > > > > > > > ただし、OSやcorosyncの停止・再起動を行えば、切替えが行えます。 > > > > > > > > > > > > > > 上記のような構成について制限があるかご教示頂けますでしょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > なお、 > > > > > > > > > > > > > > ・drbd_dbに障害が発生した場合も同様の事象が発生します。 > > > > > > > > > > > > > > ・cln_allに障害が発生した場合は適切に切り替わります。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > また、情報に不足等あればお知らせください。 > > > > > > > > > > > > > > ※ログファイルは4台分を圧縮して200kbありましたので添付を見送りました。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > よろしくお願い致します。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > > > > > Linux****@lists***** > > > > > > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/lin > > > > > > > > > > > > > ux-h > > > > > > > > > > > > > > a-ja > > > > > > > > > > > > > > > > pa > > > > > > > > > > > > > n > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > > > > Linux****@lists***** > > > > > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux > > > > > > > > > > > > -ha- > > > > > > > > > > > > > japa > > > > > > > > > > > > > > > n > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > > > Linux****@lists***** > > > > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-h > > > > > > > > > > > a-ja > > > > > > > > > > > > pan > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > > Linux****@lists***** > > > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha- > > > > > > > > > > japa > > > > > > > > > > > n > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > Linux****@lists***** > > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-ja > > > > > > > > > pan > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > Linux-ha-japan mailing list > > > > > > > > Linux****@lists***** > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japa > > > > > > > > n > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > Linux-ha-japan mailing list > > > > > > > Linux****@lists***** > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > Linux-ha-japan mailing list > > > > > > Linux****@lists***** > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > > _______________________________________________ > > > > > Linux-ha-japan mailing list > > > > > Linux****@lists***** > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > > > > > > > _______________________________________________ > > > Linux-ha-japan mailing list > > > Linux****@lists***** > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > _______________________________________________ > Linux-ha-japan mailing list > Linux****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan