[Linux-ha-jp] Samba環境のnmb停止タイムアウトについて

Back to archive index
renay****@ybb***** renay****@ybb*****
2021年 12月 20日 (月) 19:33:34 JST


原田さん

こんばんは、山内です。

ざっと見ただけですが、srv1が停止時のエラーからフェンシングされて再参加した時、リソースの2重起動が検知されているようです。

fence_ilo5は使ったことがないのですが、ちゃんと、serv1は、再起動されているのでしょうか?

※明日、もう少し見てみる予定ですが、ちゃんとserv1が再起動されて、その後、リソースが解放されているのか気になります。


以上です。


----- Original Message -----

From: "harada" <ljpgh****@gmail*****>
To: "renay****@ybb*****" <renay****@ybb*****>
Date: 2021/12/20 月 17:46
Subject: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて


山内様

ご返信ありがとうございます!
1つ誤りがございました。申し訳ございません。
今回のマシン2台は、仮想マシンでございませんでした。
そのため、フェンシングは、fence_ilo5を利用しています。
ログも自分なりに見たのですが、判断ができず、、重いですが、お送りしますので、
何かアドバイスいただけますと幸いです。
1号機と2号機のログです。

2021年12月20日(月) 13:50 <renay****@ybb*****>:
原田さん
 
 こんにちは、山内です。
 
 >下記の環境で、切り替え試験をするために、1号機をシャットダウンしたところ、nmbが停止しない状態が続き、フェンス処理が走りました。
 >その後、2号機にフェイルオーバーしたかと思ったら、再度2号機でフェンスが走り、1号機へとフェイルオーバのような事象が繰り返され、何とかメンテナンスモードを実行することで、いったりきたりするリソースを止めることができました。
 
 ログを見ないと何とも言えませんが。。。
 この部分で、「再度2号機でフェンスが走り。。。」とありますので、何か2号機で故障が起きている為、再度、参加してきた1号機でフェンシングが実行されたのではないでしょうか?
 
 フェンシングリソースには何をお使いでしょうか?fence_vmware_restやfence_vmware_soapでしょうか?
 ※もしかすると、ACT/STBの相打ちのような状況が起きているのかも。。とも思いますが・・・
 
 >どのあたりを観点に調査すればよろしいでしょうか。
 >また、考えられる原因などありましたら アドバイスいただけますと幸いです。
 
 まずは、ログからお互いのフェンシングが実行される原因となった辺りを確認することから始めるのが良いと思います。
 
 クラスタ設定やログを開示できる範囲で、お見せ頂ければ、もう少しわかるかも知れません。
 
 以上、宜しくお願いいたします。
 
 ----- Original Message -----
 
 From: "harada" <ljpgh****@gmail*****>
 To: "linux****@lists*****" <linux****@lists*****>
 Date: 2021/12/20 月 12:47
 Subject: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて
 
 
 原田と申します。
 
 下記の環境で、切り替え試験をするために、1号機をシャットダウンしたところ、nmbが停止しない状態が続き、フェンス処理が走りました。
 その後、2号機にフェイルオーバーしたかと思ったら、再度2号機でフェンスが走り、1号機へとフェイルオーバのような事象が繰り返され、何とかメンテナンスモードを実行することで、いったりきたりするリソースを止めることができました。
 
 ■環境
 ・VMware ESXi 上の仮想サーバ
 ・サーバ台数は2台(Act - Syb 構成)
 ・ 共有ディスク(SCSI)
 ・OS:CentOS7
 ・Pacemakerバージョン想定:1.1.23
 
 リソース(起動順番)
 ・Filesystem 
 ・nfs-server
 ・exportfs
 ・VIP 7個
 ・Samba
 ・nmb
 ・Mail
 
 何度か検証環境でテストするうちに、sambaとnmbの順番を変えることで、nmbの停止タイムアウトが発生しなくなることは分かったのですが、
 nmbのstop のタイムアウトが発生して、その後、フェンスが走った場合は、1号機を強制停止することになるので、2号機にフェイルオーバーして終わりなはずなのに、今回、なぜいったり来たりしてしまったのかが原因が分からない状態です。
 
 どのあたりを観点に調査すればよろしいでしょうか。
 また、考えられる原因などありましたら アドバイスいただけますと幸いです。
 
 宜しくお願いいたします。
 
 _______________________________________________
 Linux-ha-japan mailing list
 Linux****@lists*****
 https://lists.osdn.me/mailman/listinfo/linux-ha-japan
 



Linux-ha-japan メーリングリストの案内
Back to archive index