[Linux-ha-jp] フェールオーバーの原因について

Back to archive index
山田 敦之 a.yam****@ncd*****
2021年 12月 3日 (金) 21:05:00 JST


山内様

お世話になっております。山田です。

追加で1点確認させてください。
> corosync/pacemakerのバージョン、設定にもよりますが、corosync側にwatchdogを設定している場合、
> 負荷により稼働系がwatchdogにより再起動してフェイルオーバー発生する場合はあります。
とありますが、watchdogにより再起動が発生したか確認する方法はあるのでしょうか?
Watchdogの設定としては
/etc/systemd/system/corosync.serviceにて
ExecStartPre=/sbin/modprobe softdog
を設定しています。

以上、よろしくお願いいたします。
-----Original Message-----
From: renay****@ybb***** <renay****@ybb*****> 
Sent: Thursday, December 2, 2021 7:53 PM
To: 山田 敦之 <a.yam****@ncd*****>; linux****@lists*****
Subject: Re: [Linux-ha-jp] フェールオーバーの原因について

山田さん

こんばんは、山内です。

> ご確認ありがとうございます。
> Zabbixでのリソース状況では特に負荷がかかっていた形跡はないため
> 高負荷による再起動ではなさそうです。
> 
> フェールオーバーが発生したのはOracleのRMANバックアップを取得し始めた時で
> 当該処理が原因かも知れないため、一旦当該処理中はメンテンナンスモードにし
> フェールオーバーが発生しないようにして様子を見たいと思います。
> (フェールオーバー発生後に待機系のみの状態で再実行した際はRMANバックアップは正常終了しました)
> 
> また何かあれば質問させていただきます。


Oracleのバックアップ処理の辺りに問題がありそうとのこと承知いたしました。

何か原因になるような事がわかりましたら、MLで共有可能な範囲で情報をいただけると助かります。

以上、宜しくお願いいたします。



----- Original Message -----
> From: 山田 敦之 <a.yam****@ncd*****>
> To: "renay****@ybb*****" <renay****@ybb*****>; 
> "linux****@lists*****" <linux****@lists*****>
> Cc: 
> Date: 2021/12/1, Wed 18:28
> Subject: RE: [Linux-ha-jp]  フェールオーバーの原因について
> 
> 山内様
> 
> ご確認ありがとうございます。
> Zabbixでのリソース状況では特に負荷がかかっていた形跡はないため
> 高負荷による再起動ではなさそうです。
> 
> フェールオーバーが発生したのはOracleのRMANバックアップを取得し始めた時で
> 当該処理が原因かも知れないため、一旦当該処理中はメンテンナンスモードにし
> フェールオーバーが発生しないようにして様子を見たいと思います。
> (フェールオーバー発生後に待機系のみの状態で再実行した際はRMANバックアップは正常終了しました)
> 
> また何かあれば質問させていただきます。
> 
> 以上、よろしくお願いいたします。
> -----Original Message-----
> From: Linux-ha-japan <linux****@lists*****> On Behalf 
> Of renay****@ybb*****
> Sent: Tuesday, November 30, 2021 8:12 AM
> To: linux****@lists*****
> Subject: Re: [Linux-ha-jp] フェールオーバーの原因について
> 
> 山田さん
> 
> おはようございます。山内です。
> 
>> 先日本番環境にてフェールオーバーが発生しました。
>> Corosyncのログを見る限り、稼働系との疎通ができなくなったため
>> 待機系が稼働系をクラスタから切り離したように見えるのですが認識はあっていますでしょうか?
> 
> 
> はい。合っていると思います。
> 
>> 疎通ができなくなることにより、待機系が稼働系を強制的に再起動することはあるのでしょうか?
> 
> ログを見る限り、STONITHリソースの設定がないようですので、待機系が稼働系を再起動したのではないようです。
> 
>> ハードウェア故障が発生しておりこちらが起因して稼働系が再起動されたことにより
>> フェールオーバーが発生したと推測しますが、確証がないため再発が懸念されます。
>> またCPUやメモリ高負荷によりPacemakerもしくはcorosyncが強制的にサーバーを再起動することはあるのでしょうか?
> 
> corosync/pacemakerのバージョン、設定にもよりますが、corosync側にwatchdogを設定している場合、
> 負荷により稼働系がwatchdogにより再起動してフェイルオーバー発生する場合はあります。
> また、OSのOMM killerが影響する場合もあるかと思います。
> 
> 以上です。
> 
> ----- Original Message -----
>> From: 山田 敦之 <a.yam****@ncd*****>
>> To: "linux****@lists*****" 
> <linux****@lists*****>
>> Date: 2021/11/29, Mon 19:49
>> Subject: [Linux-ha-jp] フェールオーバーの原因について
>> 
>> 
>> 
>> お世話になっております。山田と申します。
>>  
>> 先日本番環境にてフェールオーバーが発生しました。
>> Corosyncのログを見る限り、稼働系との疎通ができなくなったため
>> 待機系が稼働系をクラスタから切り離したように見えるのですが認識はあっていますでしょうか?
>> 疎通ができなくなることにより、待機系が稼働系を強制的に再起動することはあるのでしょうか?
>>  
>> ハードウェア故障が発生しておりこちらが起因して稼働系が再起動されたことにより
>> フェールオーバーが発生したと推測しますが、確証がないため再発が懸念されます。
>> またCPUやメモリ高負荷によりPacemakerもしくはcorosyncが強制的にサーバーを再起動することはあるのでしょうか?
>>  
>> Corosyncのログを添付いたします。
>>  
>> 他に原因調査する箇所があればアドバイスいただけますと幸いです。
>>  
>> 以上、よろしくお願いいたします。
>> _______________________________________________
>> Linux-ha-japan mailing list
>> Linux****@lists*****
>> https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>> 
>> 
>> 
> 
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> 



Linux-ha-japan メーリングリストの案内
Back to archive index