[Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定

Back to archive index

高瀬智大 tomoh****@kccs*****
2018年 10月 1日 (月) 19:14:49 JST


山内さん

こんばんは、高瀬です。
早速の返信ありがとうございます。

以下コマンドにて/dev/watchdogにアクセスしているユーザを確認しました。
fuser -mv /dev/watchdog

確認した結果、様々なプロセスが読み込み専用、書き込み専用として開いておりました。
その中でもcorosync、pacemakerに着目したところ、F(書き込み専用)で使用中でした。

-----------------
USER        PID ACCESS COMMAND
root       1072 F.... corosync
root           1350 F.... pacemakerd
root           1361 F.c.. agetty
-----------------

以上です。
宜しくお願い致します。


2018年10月1日(月) 18:54 <renay****@ybb*****>:

>
> 高瀬さん
>
> こんばんは、山内です。
>
> >corosyncの起動ログにwarningが出ているものの正常にsoftdogが組み込まれている事から、問題ないとおもいますがいかがでしょうか。
> >大変お手数をおかけして申し訳ありませんがご教示の程よろしくお願い致します。
>
>
> 該当のログのソースは以下となっておりますので、watchdog自体にcorosyncがアクセス出来ない状態となっていて設定出来ていないと思われます。
> よって、以降、corosyncのwatchdog機能(WDサービス)は無効となっていると思います。
>
> (snip)
> static int setup_watchdog(void)
>  {
>  struct watchdog_info ident;
>  char *str;
>  ENTER();
>  if (icmap_get_string("resources.watchdog_device", &str) == CS_OK) {
>  if (strcmp (str, "off") == 0) {
>  log_printf (LOGSYS_LEVEL_WARNING, "Watchdog disabled by configuration");
>  free(str);
>  dog = -1;
>  return -1;
>  } else {
>  watchdog_device = str;
>  }
>  }
>  if (access (watchdog_device, W_OK) != 0) {
>  log_printf (LOGSYS_LEVEL_WARNING, "No Watchdog %s, try modprobe <a
> watchdog>", watchdog_device);
>  dog = -1;
>  return -1;
>  }
>
> (snip)
>
> ちなみに、該当システムの他のプロセスが/dev/watchdogを持っているようなことはないでしょうか?
> HPなどのハードの場合、独自のツールの監視プロセスが/dev/watchdogを持っていたりということがありますが・・・
>
> 以上です。
> ----- Original Message -----
> >From: 高瀬智大 <tomoh****@kccs*****>
> >To: renay****@ybb*****
> >Cc: linux****@lists*****
> >Date: 2018/10/1, Mon 18:43
> >Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >
> >
> >山内さん
> >
> >
> >こんばんは
> >高瀬です。
> >
> >
> >返信ありがとうございます。
> >
> >
> >/etc/sysconfig/pacemakerの設定は以下にしております。
> >
> >-------
> >
> >export PCMK_logfile="ログ出力先"
> >export PCMK_logfacility=none
> >export PCMK_fail_fast=yes
> >-------
> >
> >
> >
> >
> >起動時のcorosyncログには以下が出力されておりました。
> >--------
> >
> >corosync warning [WD    ] No Watchdog /dev/watchdog, try modprobe <a
> watchdog>
> >corosync info    [WD    ] no resources configured.
> >corosync notice  [SERV  ] Service engine loaded: corosync watchdog
> service [7]
> >corosync notice  [QUORUM] Using quorum provider corosync_votequorum
> >corosync notice  [SERV  ] Service engine loaded: corosync vote quorum
> service v1.0 [5]
> >corosync info    [QB    ] server name: votequorum
> >corosync notice  [SERV  ] Service engine loaded: corosync cluster quorum
> service v0.1 [3]
> >corosync info    [QB    ] server name: quorum
> >--------
> >
> >
> >
> >
> >また、以下コマンドにてsoftdogが組み込まれているかの確認を実施したところ、表示されておりますので組み込まれておりました。
> >lsmod |grep softdog
> >---------
> >softdog                 4320  0
> >
> >---------
> >
> >
> >corosyncの起動ログにwarningが出ているものの正常にsoftdogが組み込まれている事から、問題ないとおもいますがいかがでしょうか。
> >大変お手数をおかけして申し訳ありませんがご教示の程よろしくお願い致します。
> >
> >
> >以上です。
> >宜しくお願い致します。
> >
> >
> >2018年10月1日(月) 17:30 <renay****@ybb*****>:
> >
> >高瀬さん
> >>
> >>こんばんは、山内です。
> >>
> >>
> >>了解いたしました。
> >>
> >>実際にUbuntuのKVM上で、CentOS69のゲストを単ノード起動(1.1.16の同じリポジトリパッケージ)で確認してみました。
> >>
> >>
> >>まずは、corosyncの起動のログを確認して頂ければと思います。
> >>念の為、/etc/sysconfig/pacemakerのfail_fastの設定(「yes」)があれば、コメントにして頂いて、start
> pacmaker.combinedを実行していただきたいです。
> >>
>
> >>corosyncは内部的にWDサービスとしてwatchdogを利用している為、正常にwatchdogを認識していれば、起動時に以下のようなログが出ているはずです。
> >>
> >>
> >>Oct  1 17:19:45 cent69-01 corosync[2194]:  [WD    ] Watchdog
> /dev/watchdog is now been tickled by corosync.
> >>Oct  1 17:19:45 cent69-01 corosync[2194]:  [WD    ] no resources
> configured.
> >>
> >>この時、エラーが出ていれば、何らかの問題があると思います。
> >>※もしくは、WDサービスのログが出ていないなど。。。
> >>
> >>ちなみに、起動後、softdogが組み込まれたかは?以下で確認出来ます。
> >>
> >>[root @ cent69-01 ~]# lsmod |grep softdog
> >>softdog                 4320  2
> >>
> >>
> >>手元の単ノードで起動後、corosyncをKILLすると数秒後にwatchdogにより再起動が発生しました。
> >>
> >>[root @ cent69-01 ~]# ps -ef |grep coro
> >>root      2078     1  2 17:27 ?        00:00:01 corosync
> >>root      2107  2048  0 17:28 pts/0    00:00:00 grep coro
> >>[root @ cent69-01 ~]# kill -9 2078
> >>
> >>
> >>
> >>上記のWDサービスの起動ログなどの確認をお願いします。
> >>以上です。
> >>
> >>----- Original Message -----
> >>>From: 高瀬智大 <tomoh****@kccs*****>
> >>>To: renay****@ybb*****; linux****@lists*****
> >>>Date: 2018/10/1, Mon 11:09
> >>>Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >>>
> >>>
> >>>山内さん
> >>>
> >>>
> >>>こんにちは
> >>>高瀬です。
> >>>
> >>>
> >>>返信頂きありがとうございます。
> >>>
> >>>
> >>>1. 起動は、initctlで行っているかどうか?
> >>> →はい。pacemakerの起動・停止はinitictrlにて実施しています。
> >>> 2. また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか?
> >>>
> >>> →はい。有効になっています。
> >>>3. /dev/watchdogが認識されているかどうか?
> >>> →以下コマンドにて表示(認識)されている事を確認しています。
> >>> ls -l  /dev/watchdog
> >>>
> >>> watchdogが正しく動作すれば、上記デバイスファイルの時間は更新されるのでしょうか。
> >>> watchdogの処理が失敗しているのか、そもそもwatchdogが動作していないのか切り分けたく、お聞きしております。
> >>>
> >>>
> >>>設定等でも特に誤って記載している箇所等はないのですが、watchdogによるOS再起動が動作していない状態となります。
> >>>
> >>>
> >>>以上です。
> >>>よろしくお願い致します。
> >>>
> >>>
> >>>
> >>>2018年9月30日(日) 3:01 <renay****@ybb*****>:
> >>>
> >>>高瀬さん
> >>>>
> >>>>こんばんは、山内です。
> >>>>
> >>>>Linux-ha-japanのリポジトリパッケージを利用されていると思いますので、corosyncのwatchdogは有効になっている
> >>>>パッケージが入っていると思いますので、設定が正しければwatchdogが動作すると思います。
> >>>>
> >>>>以下の点を確認して頂くのが良いと思います。
> >>>>
> >>>>
> >>>>1. 起動は、initctlで行っているかどうか?
> >>>>2. また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか?
> >>>> - https://linux-ha.osdn.jp/wp/archives/4618#51_corosync
> >>>>3. /dev/watchdogが認識されているかどうか?
> >>>>
> >>>>該当のログは、corosyncがダウンした事をPacemakerプロセスが検知して出力しているので問題はありませんが、
> >>>>本来は、このログが出るか出ないかくらいで、watchdogが発動してOS再起動となります。
> >>>>
> >>>>先に書いた3つあたりを確認していただければ良いかと思います。
> >>>>
> >>>>以上です。
> >>>>
> >>>>----- Original Message -----
> >>>>>From: 高瀬智大 <tomoh****@kccs*****>
> >>>>>To: linux****@lists*****
> >>>>>Date: 2018/9/29, Sat 16:18
> >>>>>Subject: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >>>>>
> >>>>>
> >>>>>お世話になっております。
> >>>>>
> >>>>>
> >>>>>現在、corosync+pacemakerにてHA構成を組んでおります。
> >>>>>
> >>>>>
> >>>>>corosyncプロセスをKILL(コマンド「kill -9
> プロセスID」)した際に切り替わる事+watchdogが動作し、OS再起動が発生する事を確認したいのですが、
> >>>>>
> >>>>>うまく動作していない状況です。
> >>>>>
> >>>>>
> >>>>>何か情報があればご教示ください。
> >>>>>
> >>>>>
> >>>>>環境、詳細な事象は以下となります。
> >>>>>
> >>>>>
> >>>>>【使用ソフト】
> >>>>>CentOS 6.9 64bit
> >>>>>
> >>>>>Pacemaker 1.1.16-1
> >>>>>
> >>>>>pacemaker-repo 1.1.16-1.1
> >>>>>
> >>>>>corosync 2.4.2-1
> >>>>>
> >>>>>
> >>>>>
> >>>>>【構成】
> >>>>>2台でHA構成のActive-Standby構成
> >>>>>
> >>>>>
> >>>>>【事象】
> >>>>>①corosyncプロセスをKILLした際に切替が発生しない。
> >>>>> →Standby側にてVIPCheckが失敗し、その後の切替処理が止まってしまう。
> >>>>> この後にActive側にてwatchdogが動作しOS再起動され切替が発生する想定だったが、以下②の事象が発生し
> >>>>> OS再起動がされない。
> >>>>>
> >>>>>
> >>>>>②corosyncをKILLしたが、以下エラーメッセージが出力され、watchdogが動作しない。
> >>>>> ----------
> >>>>> hostname stonith-ng:    error: pcmk_cpg_dispatch:Connection to the
> CPG API failed: Library error (2)
> >>>>> hostname stonith-ng:    error: stonith_peer_cs_destroy:Corosync
> connection terminated
> >>>>> hostname pacemakerd:    error: pcmk_cpg_dispatch:Connection to the
> CPG API failed: Library error (2)
> >>>>> hostname  pacemakerd:    error: mcp_cpg_destroy:Connection destroyed
> >>>>> hostname       crmd:    error: crmd_quorum_destroy:connection
> terminated
> >>>>> hostname         cib:    error: pcmk_cpg_dispatch:Connection to the
> CPG API failed: Library error (2)
> >>>>> hostname         cib:    error: cib_cs_destroy:Corosync connection
> lost!  Exiting.
> >>>>> hostname       attrd:    error: pcmk_cpg_dispatch:Connection to the
> CPG API failed: Library error (2)
> >>>>> ----------
> >>>>>
> >>>>>
> >>>>>以上、よろしくお願い致します。
> >>>>>
> >>>>>
> >>>>>_______________________________________________
> >>>>>Linux-ha-japan mailing list
> >>>>>Linux****@lists*****
> >>>>>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >>>>>
> >>>>>
> >>>>>
> >>>>
> >>>>_______________________________________________
> >>>>Linux-ha-japan mailing list
> >>>>Linux****@lists*****
> >>>>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >>>>
> >>>
> >>>
> >>>
> >>>
> >>>
> >>>
> >>>
> >>>
> >>>
> >>
> >
> >
> >
> >
> >
> >
> >
>
-------------- next part --------------
HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...
URL: https://lists.osdn.me/mailman/archives/linux-ha-japan/attachments/20181001/36cb1648/attachment-0001.htm 



Linux-ha-japan メーリングリストの案内
Back to archive index