[Linux-ha-jp] DRBD 通信エラーについて

Back to archive index

高田 麻也 takad****@ymir*****
2010年 10月 20日 (水) 18:42:09 JST


はじめまして高田と申します。

DRBDのみでのトラブルですので、こちらで発言にそぐわないものかもしれませんがご容赦くださいませ。

[RedHat Enterprise Linux 5.4]にDRBD-0.7.25を使用してソースからRPMを作成しインストール、動作させたところ
下記のような通信系エラーが多発し、サーバをリブートしないとどうにも立ち行かなくなりました。
(DRBDの初期同期は停止していました)

----------------------------------
Sep 27 17:46:03 smlm101s kernel: drbd0: [drbd0_worker/5724] sock_sendmsg time expired, ko = 4294967293
----------------------------------

上記のエラーはコンソールに直接大量に吐き出され、かつ/var/log/messagesにも記載されておりました。
原因を探ろうとsyslogやネットワーク構成を調べてみたのですが、原因特定には至っておりません。
また、この時は作業を中断して1週間後に再度接続し、動作を試みたところすんなりと起動し現在まで2週間ほど
たちましたが問題が再現していない状況です。
DRBDのデイバイスはLVM上に用意された領域1つを割り当てた形で作成しております。
似たような事象をご経験された方などがおりましたら是非お話をお聞きできればと思います。

どうぞよろしくお願い申し上げます。


-- 以下、情報 ---------------------
■Kernel情報
~~~~~~~~~~~~
Linux smlm101s 2.6.18-164.15.1.el5 #1 SMP Mon Mar 1 10:56:08 EST 2010 x86_64 x86_64 x86_64 GNU/Linux

■RPM生成時必須と思われるKernel関連RPM
~~~~~~~~~~~~~~~
・kernel-devel-2.6.18-164.15.1.el5
・kernel-headers-2.6.18-164.15.1.el5
・kernel-2.6.18-164.15.1.el5

■RPM生成コマンド
~~~~~~~~~~~~~~
・make rpm

■生成されたDRBD-RPMパッケージ
~~~~~~~~~~~~~~~~~~~~~~~~
・drbd-0.7.25-1.x86_64.rpm
・drbd-debuginfo-0.7.25-1.x86_64.rpm
・drbd-km-2.6.18_164.15.1.el5-0.7.25-1.x86_64.rpm

■インストールコマンド(インストールしたRPM)
~~~~~~~~~~~~~~~~~~~~~~
・rpm -ivh drbd-0.7.25-1.x86_64.rpm drbd-km-2.6.18_164.15.1.el5-0.7.25-1.x86_64.rpm

■/etc/drbd.conf 内容
~~~~~~~~~~~~~~~~~~~~~
resource r0 {
  protocol C;
  startup {
    degr-wfc-timeout 120;    # 2 minutes.
  }
  disk {
    on-io-error   pass_on;
  }
  net {
  }
  syncer {
    rate 100M;
    group 1;
    al-extents 257;
  }
  on hoge1 {
    device     /dev/drbd0;
    disk       /dev/rootvg/lvdrbd;
    address    192.168.11.1:7788;
    meta-disk  internal;
  }
  on hoge2 {
    device     /dev/drbd0;
    disk       /dev/rootvg/lvdrbd;
    address    192.168.11.2:7788;
    meta-disk  internal;
  }
}

■DRBDセットアップからエラー発生までの流れ
・プライマリ、セカンダリ機でDRBDを上記のコマンドにてRPM生成、インストール。
・LVMで用意されている/dev/rootvg/lvdrbdが/drbdにmountされていたのでumountと/etc/fstabの該当行コメントアウト。
・上記のコンフィグをプライマリ、セカンダリ機両機に設置。
・OS再起動
・セカンダリ、プライマリ機の順番で /etc/init.d/drbd start を実施、リソースが接続されたことをstatusで確認。
・プライマリ側で drbdadm -- --do-what-I-say primary all を実施。初期同期が開始したことをstatusにて確認。
・プライマリ側で mkfs.etx3 /dev/drbd0 を実施し領域確保。
・プライマリ機で mount /dev/drbd0 /drbd として領域をマウントする。
・プライマリ機で cat /proc/partitions で確保領域を表示、df にて実領域を表示しmeta-disk領域が確保されていることを確認。
   partitions結果:          147     0  524156928 drbd0
   df結果    :/dev/drbd0           515932608  22390360 467334404   5% /drbd
・他作業を続行しようとしたところ、エラーが多発し作業継続が困難になる



高田 麻也 -Takada Asaya-





Linux-ha-japan メーリングリストの案内
Back to archive index