Authentication




Cancel OK
B!コメントする  2016-06-12 16:10:00 by admin

予想外の障害

もうかなり前のことだが、サーバーから障害通知のお知らせが来た。
そこは医療関係でかなり慎重に試験をした上で導入し、さらに3カ月も経っていないので若干嫌な予感はした。
メールの内容はRAID構成の数十テラのストレージのうち2個のHDDに障害が出ているという内容。
こりゃマズということですぐに駆けつけてみると

お部屋の中がサウナ状態に・・・

サーバーが熱暴走でも起こしたのかと一瞬思ったがさすがにサウナにするほどの熱量は無理なのでお部屋を改めて確認すると空調が止まってる・・・

なんと空調の工事で電源を切ったためにサーバーやストレージを置いてる部屋の温度が高温になりストレージが物理破損・・・
到着時には破損ストレージが4ヶ所に増えていて、壊れる場所が運よくバラけていたためにデータの損失は免れました。
すぐに電源の復旧を依頼したら工事が終わるまであと2時間程度かかるのでそれまで待って欲しいと言われたので、顧客のデータ消えてもいいなら待ちますよと入ったらすぐに復旧してくれました。

本当に分散して壊れていてくれたのでデータの損失は免れましたが、5ヶ所になると必ず復旧出来なくなる部分が出てくるので部屋の温度が正常に戻ってくれるまで生きた心地はしませんでした。

その後はさらなる対策を取って予防策を何重にもしましたが、早く温度を下げたくて大量のストレージに向かってダンボールの切れ端で風を送ったのは今ではいい思い出です。


環境 改修 障害  

  • コメント
  • コメントはまだありません