こんばんわ
ごりゅです。
00:00〜1:50までの間
各サービスに接続できない障害が発生しておりました。
原因は
メインサーバー内のWEBサーバーに非常に大きな負荷が掛かっており
その影響で、他のサーバー、ネットワーク機器にも障害が発生し
その結果WEBサービスだけでなく、ftpやmailにも影響が及びました。
どのような事が引き金になったのかはわかりませんが
perlではなくPHPの暴走ではないかと考えております。
perlであれば、プロセスが分離している為、WEBサーバーに直接的な影響はありませんが
phpの場合は、高速化を計る為にWEBサーバー内部に組み込まれている為、暴走がそのままWEBサーバーに影響します。
復旧が手間取った事については
私事で申し訳ないのですが、外出中に監視からの障害メールで気付きました。
しかし障害内容の通り、サーバーが高負荷であり、他にも障害が波及していた為に
リモートでログインできず、帰宅するまで手が付けられない状態であった事が理由になります。
また、復旧をサポートするスクリプトも上手く動かなかった為、手動で直しています。
再発の防止策として、CPUの負荷状況を監視、負荷量に閾値を設けて、閾値をオーバーした場合に
WEBサーバーを再起動させるような仕組みを用意したいと考えています。
現在は復旧しておりますが、まだ私の気付いていない所で不具合が起こっている可能性もありますので
何かありましたら、sakura@usamimi.infoまで連絡をお願い致します。
このメールアドレスには返信できませんので
鯖管と連絡を取りたい場合は、sakura@usamimi.infoまでお願いします。
以上です。
\e
--------------------------
ふろむ:goryu
めいる<sakura@usamimi.info>
ほーむ<http://www.usamimi.info/>