こんばんわ
ごりゅです。
19:30頃からメインサーバーに一切繋がらない状態になりました。
特定のアカウントのCGI(perl)の暴走によるサーバーの過負荷が原因になります。
常の暴走であれば、サーバーが応答不能になるようなことは無く、最悪でもリモートから復旧が可能ですが
今回の暴走は、全てを巻き込んだ形となり、対応が出来ない状態にありました。
暴走しているCGIをKILLして、念の為WEBサービスを再起動することで、正常に復旧しています。
また、今まではそれほど暴走に関して、定期的に長時間起動しているCGIをKILLする程度
でしたが、今回の件を踏まえて以下の対応を採ります。
・定期的にKILLする間隔を短くする
・別のサーバーにリモートログイン出来るLineを設けて、そこからシリアルコンソールで入れるような仕組みを作る。
この障害の影響時間は
19:30頃〜20:10までです。
以上です。
このメーリングリスト(マガジン)は、
usamimi.infoのアカウントを取得している人向けに配信されています。
質問等、返信に関しては、ML宛ではなく、sakura@usamimi.info宛てにお願いします。
\e
--------------------------
ふろむ:goryu
めいる<sakura@usamimi.info>
ほーむ<http://www.usamimi.info/>