多摩市火災、建物は「データセンター」だったデータセンターは海浜地区に作るべきではない。

2018年10月14日

停電テストは難しい

停電のテストは難しいものです。

一般的なサーバーシステムはUPS(無停電電源装置)が付いています。新規導入したサーバーとUPSが一対一の場合はUPSが稼働しているかどうか、商用電源のケーブルを抜けば簡単にテストができます。しかし最近はサーバーの高密度化が進み、1台のUPSに数十台のサーバーがぶら下がっているという事も少なくありません。このサーバーの中の一台だけリプレースしUPSをを正常にモニタリングしているかどうかをテストする場合、電源コードを抜けばすべての稼働中のシステムに影響が出てしまいます。

テストは不具合を見つけ出し、修正するために行うため、「うまく動作しない」時にどうすればいいのかの対策が必要になります。そこで「うまく動かない状況」を作り出す必要があるわけですね。そうなると稼働中のシステムにも影響する。

UPSに関わらず、ハードウェアは様々な状況で正常に動作するか、異常系の警告は正しく処理できるか、と言ったテストもしなければなりません。

私も経験があるのですが、ハードウェア異常が正しく検出できるかどうか、テストしてほしいと顧客に頼まれ、ハードウェアの冗長ファンに指を突っ込んで止めてみて、ちゃんとアラームが出たかを確認したことがあります。さすがに顧客さんは血だらけになった私の指先から目を背けて、「頼むからもうわかった、身体を張ったテストはしないでくれ」と懇願されたことがありました。

この様な冗長性のあるハードウェアは、稼働中に交換が可能で、その中にコンピュータ自体の電源ユニットがあります。電源ユニット自体は基本的には単装でも動作しますが、容量の大きなハードウェアや大量のHDDを搭載している場合は二重化が必須の場合もあります。多くの場合、単重電源ユニットでも動作しますが、UPS は商用電源の異常で「壊れることが任務」なので、UPS自体も二重化して、オンラインでUPSを交換できるように基本インフラを設計します。

さて、先日の胆振地震では、北海道の主力発電所の一つである苫厚発電所が被害を受けて、全道ブランクアウトという「想定外」の被害が出ました。

多くのデータセンターでは、商用電源も異なる変電所から給電を受けて二重化していますが、全道ブランクアウトという異常事態に対応しきれなかったいくつかのデータセンターでは、停電対策がうまく機能せずに一部にサービス障害が起こりました。

北海道地震、業種別の被害状況まとめ
https://tech.nikkeibp.co.jp/atcl/nxt/column/18/00432/091900033/

ただ、iDC が被害を受けたとしても、周辺の通信サービスや、iDC への交通手段がない、コールセンターが停止、などの副次的なトラブルがあることで、iDC そのもののシステムに問題がなくても、「サービス全体」に支障が出てしまえば、これも十分なインシデントです。






このエントリーをはてなブックマークに追加
islandcenter at 13:43│Comments(0)

コメントする

名前
 
  絵文字
 
 
多摩市火災、建物は「データセンター」だったデータセンターは海浜地区に作るべきではない。