[Linux-ha-jp] heartbeatから出力されるメッセージにつきまして

Back to archive index

renay****@ybb***** renay****@ybb*****
2014年 5月 9日 (金) 14:01:18 JST


林さん

こんにちは、山内です。

個人的には、2.1.3や、2.1.4あたりでも、正常稼働中にいきなりdeadになるケースはあまりお目にかかったことはありません。
#ただし、ha.cfのdeadtime設定が非常に短いなどは除く。

ESXi4.1上のゲストと思いますが、ESXi側のネットワーク関連の不具合も疑ってみる価値があるかも知れませんね。

以上です。


--- On Fri, 2014/5/9, tatsuya hayashi <23.04****@gmail*****> wrote:

> 
> 山内さん
> 
> お世話になります。林です。
> 
> 早々にご回答頂きましてありがとうございます。
> 
> > インターコネクト通信が遮断もしくは、
> > 到達しないような状況に陥っているのではないでしょうか?↑
> この点ですが、F/O後、環境を確認したのですが、問題なく通信ができていました。
> やはり不具合を踏んでしまったのでしょうか。
> 

> アップデートを視野に入れ、引き続き対応を進めていきたいと思います。
> 他にお気づきの点がありましたらご連絡を頂けますと幸いでございます。
> 
> 以上、何卒よろしくお願いいたします。
> 
> 
> 
> 
> 2014年5月9日 13:23  <renay****@ybb*****>:
> 
林さん
> 

> 
こんにちは、山内です。
> 

> 
ログですが、WARNについては、無視して頂いて構いません。
> 

> 
ですが、最後のログで相手ノードとのHeartbeat通信が切れています。
> 
#たぶん、相手ノード自体は決してダウンしていないと思いますが・・・・
> 

> 
> 
> Apr 27 08:28:27 DB2 heartbeat: [31669]: WARN: node kanri-db02: is dead
> 

> 
インターコネクト通信が遮断もしくは、到達しないような状況に陥っているのではないでしょうか?
> 
#利用されれているHeartbeatも2.1.3とかなり古いものです。もしかすると、このあたりに不具合があったやも知れません。(ちなみに、Heartbeat2系の最新版は、2.1.4のはずです)
> 
#最近は、Pacemakerを利用する方が多くなっておりますので、可能であればそちらので構築をおすすめいたします。
> 

> 
以上です。
> 

> 
> 
> 

> 
--- On Fri, 2014/5/9, tatsuya hayashi <23.04****@gmail*****> wrote:
> 

> 
>
> 
>
> 
>
> 
>
> 
> みなさま
> 
>
> 
> はじめまして林と申します。
> 
>
> 
> HeartBeatのv_2.1.3を運用しておりますが、
> 
> 下記のメッセージが連続して出力され、フェイルオーバが発生してしまいました。
> 
> 事象発生当時、CPU,Memのリソース状況に問題があったとは見受けらないため、
> 
> 高負荷な状況ではないにもかかわらず、フェイルオーバが発生したこと考えられ、
> 
>
> 
調査にいきずまってしまっています。
> 
>
> 
> 構築した環境の概要は、下記となります。
> 
> ESXi 4.1
> 
> CentOS release 5.6 (Final)
> 
> kernel-2.6.18-238.el5
> 
> heartbeat-2.1.3-3.el5.centos
> 
> drbd83-8.3.8-1.el5.centos
> 
>
> 
>
> 
>
> 
>
> 
> アドバイスを頂けますと幸いでございます。
> 
>
> 

> 
> -----
> 
> Apr 27 08:27:51 DB2 heartbeat: [31669]: WARN: Gmain_timeout_dispatch: Dispatch function for send local status was delayed 3010 ms (> 1510 ms) before being called (GSource: 0x1ea27fc8)
> 
> Apr 27 08:27:51 DB2 heartbeat: [31669]: info: Gmain_timeout_dispatch: started at 9093146540 should have started at 9093146239
> 
>
> 
Apr 27 08:27:51 DB2 heartbeat: [31669]: WARN: Gmain_timeout_dispatch: Dispatch function for send local status took too long to execute: 130 ms (> 50 ms) (GSource: 0x1ea27fc8)
> 
> Apr 27 08:27:51 DB2 heartbeat: [31669]: WARN: Gmain_timeout_dispatch: Dispatch function for check for signals was delayed 4820 ms (> 1510 ms) before being called (GSource: 0x1ea28168)
> 
>
> 
Apr 27 08:27:51 DB2 heartbeat: [31669]: info: Gmain_timeout_dispatch: started at 9093146553 should have started at 9093146071
> 
> Apr 27 08:27:53 DB2 heartbeat: [31669]: WARN: 1 lost packet(s) for [kanri-db02] [28702137:28702139]
> 
>
> 
Apr 27 08:27:54 DB2 heartbeat: [31669]: info: No pkts missing from kanri-db02!
> 
> Apr 27 08:28:03 DB2 heartbeat: [31669]: WARN: Gmain_timeout_dispatch: Dispatch function for send local status was delayed 2520 ms (> 1510 ms) before being called (GSource: 0x1ea27fc8)
> 
>
> 
Apr 27 08:28:03 DB2 heartbeat: [31669]: info: Gmain_timeout_dispatch: started at 9093147704 should have started at 9093147452
> 
> Apr 27 08:28:03 DB2 heartbeat: [31669]: WARN: Gmain_timeout_dispatch: Dispatch function for check for signals was delayed 2530 ms (> 1510 ms) before being called (GSource: 0x1ea28168)
> 
>
> 
Apr 27 08:28:03 DB2 heartbeat: [31669]: info: Gmain_timeout_dispatch: started at 9093147706 should have started at 9093147453
> 
> Apr 27 08:28:26 DB2 ntpd[14017]: synchronized to LOCAL(0), stratum 10
> 
> Apr 27 08:28:26 DB2 ntpd[14017]: kernel time sync enabled 0001
> 
>
> 
Apr 27 08:28:27 DB2 heartbeat: [31669]: WARN: node kanri-db02: is dead
> 
> -----
> 
>
> 
>
> 
> 以上、どうぞよろしくお願いいたします。
> 
>
> 

> 
_______________________________________________
> 
Linux-ha-japan mailing list
> 
Linux****@lists*****
> 
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> 

> 





Linux-ha-japan メーリングリストの案内
Back to archive index