データのバックアップ高倉健と「幸せの黄色いハンカチ」、「ドライブインいしかり」で変わったこと

2014年07月04日

機器の故障と稼働率、MTBF,MTTR,TBW(PTW)とは

MTBF

 MTBF(Mean Time Between Failure) は「平均故障間隔」の略です。「どれくらい故障しやすいか、壊れにくいか」を表す言葉です。機器の信頼性を表す指標です。

 例えば「平均MTBF10,000時間のハードディスク」と言えば、「平均」一万時間で故障するハードディスクである。あるいは一万時間は動作するはずである、という事です。

 仮にMTBF一万時間と仮定した場合、1万台のHDDがあると1時間に1台は壊れるという事になります。交換は結構忙しい作業ですね。

 中にはアタリの悪いディスクもあって500時間もたたずに壊れるディスクがあれば、2万時間動作していても壊れなかったディスクもあります。500時間と言えばわずかひと月弱ですから、ほぼ「初期不良」として扱われるでしょう。製造番号が近いものは全て「怪しい」ので交換すべきです。

 MTBF、一万時間と言えば、大体1年半くらいでしょうか。最近のハードディスクはMTBFは3~5万時間程度の様です。

 MTBFを超えて運用できていれば、ラッキーです。大抵はMTBFを超える辺りでHDDの換装やシステムの更新が必要になります。中には20年全く壊れずに動き続けたという「猛者」を見たこともあります。

米グーグル社が自社で壊れたディスクの統計を取ってみたところ、ディスクのブランドやモデルと言った要素に関係なく「壊れるものは壊れる」し、壊れないでMTBFを超えて運用できているディスクにもブランドや型番は関係なかったという調査結果を発表しています。つまり壊れるか壊れないかは運次第ということでしょうか。

 故障しやすい機器としては、他に電源やマザーボードに搭載されたコンデンサなどがあります。コンデンサも、稼働時間に比例して壊れやすいパーツです。ほとんどの場合、どのコンデンサが壊れたかを簡単に目視で確認できないし、半田で交換という訳にも行かないので、マザーボードや電源ユニット丸ごと交換という事になります。

 という事で、普通のPCの寿命は5年が目安です。サーバーベンダーの中には7年保障を謳っているメーカーもありますが、これはあくまでもパーツの保持であり、故障することを前提で保障しているだけです。

 金融システムなどに使われる専用のHDDを作るメーカーの工場で仕事をしたことがあります。ここのHDDは「絶対壊れない事が前提で作られています、他所のメーカーは壊れる事を前提で設計されています」と品質担当者が胸を張って答えたことが印象的でした。例え壊れても「なぜ壊れたのか」まで徹底的に究明しているそうです。工場の中では数万台のHDDが品質検査を受けていました。

 こういった精度の高い品質のいいパーツを使っている場合のMTBFは高いレベルになります。


MTTR

 MTTR(Mean Time To Repair/Recover) は「平均修理時間」という意味です。現実には「システムが動いていない時間」でSLA(サービスレベルの同意)の中で使われます。 MTTR4時間以内、という事は、4時間以内にサービスを再開できるという事になります。

 またMTTRは「修理のしやすさ」を表します。実際の「安物」PCサーバーの場合、修理のためにいくつものネジを取り外したり、ケーブルの取り回しが複雑だったりします。

 よくIT系の広告で「サーバーがたった3万9千円」などというのもありますが、私の様にハードウェアに詳しくないエンジニアでも、中を覗けば、いかにコストダウンした「安物のパーツ」が使われているか良くわかります。

 例えばパネルの取り付けがネジ止めで雑だったり、電源交換しようにも、何本ものケーブルを間違えなく差し替えたりする必要がありそうだ、というのはすぐ見抜けます。中程度以上のサーバーの場合、レバー一本ひねるだけでパーツ交換ができたり、空冷ファンが工夫されていたり、ハードウェアが故障した場合の状況がわかるようなLEDが外部に付いていたりします。

 この様な安物の機材の場合、たいていは1年保障で追加でも3年保障までしか受け付けません。しかも3万9千円でも年間保守料金が4万円かかったりするわけです。


 この時間は実際にサービスが止まっていることになりますので、運用担当者はMTTRをどう短縮するかが腕の見せ所となります。

 結局は壊れたパーツを取り寄せて、交換して、動かすことができれば問題ありません。しかしそれではサービスが停止します。そこで大手の顧客やクラウド事業者では、予備の機材を常に確保しておきます。MTBFの問題もあり、あるサービスを予備機に移し替えてサービスを止めないでMTTRを短縮します。壊れた機材は後でゆっくり修理して予備ストックするか廃棄するかです。

 一か所に数千台から数万台のサーバがあるデータセンターでは、一日に2、3台のPCサーバーが壊れることは特別なことではありません。何しろ分母が大きいのです。

 熟練した運用担当者は、機器が「壊れる予兆」という事に鼻が効いている必要があります。

 廃棄するサーバーには、多くのレアメタルや銅線、取扱い危険な金属類が含まれています。これらの電子部品の廃棄、再利用に必要な産業も、DC立地には必要かもしれません。


TBW(PBW)

 まだ余り注目されていませんが、TBW(Tera Byte Write) とは、最近はやりのSSD(半導体フラッシュメモリディスク)の故障単位の指標として使われます。PTW(Peta Byte Write) とも言います。

 フラッシュメモリは「書き換え回数」が寿命です。

 これは、半導体として、「書き換え」が負荷の重い作業で、半導体の寿命に大きな影響があるためです。

 デジカメや携帯電話、ノートPCでよく使われる半導体メモリです。例えば私のデジカメは4Gbのメモリがあります。しかしこの4Gバイトを全て書き換えるのは年に一、二度です。ノートパソコンで使うSSDにしても、一日に書き変える量は多くても数Gバイトです。

 一般的なSSD寿命のTBWは700―TBWから1―PTW程度ですが、ノートPCやデジカメ程度の書き換えであれば、ほぼ無限です。しかし24時間無停止のサーバーで使う場合、使い方によっては数週間から数か月で1PTWを超えてしまいます。

 ほとんどのSSDディスクの場合1―PTW善後が書き換え寿命の様です。これは一日1Tbのデータの書き込みがあれば(1Tb×365日×3年)3年で確実に壊れる、という事です。

 という事もあり、SSDの記憶装置はメーカーの保障期間は最大3年、もしくは機種により1PTW善後とするケースが多いようです。何しろまだ評価の定まっていないSSDの寿命問題です。良い悪いも含めて、バックアップを正しく取って運用することが無難です。

 一般的に「書き換え量」が単位なので容量の大きなSSDほどTPWの値は大きくなります。128Gbの場合500TPW、512GBのSSDの場合、1.3PTWとかです。

 読み出しの多いデータをSSDに配置して、書き込み、書き換えが多いデータをHDDに配置するのはエンジニアの腕の見せ所です。

 一番困るのは、SSDを二重化しても、予備のシステムが同じ量のデータを書き換えてしまうという事です。しかも寿命は、データ量で決まってしまう。つまりバックアップシステムも、ほぼ同じタイミングで壊れる可能性が高いということです。

 救いがあるとすると、SSDが壊れるには現在のTBWを計算して、「そろそろ寿命だ」と予測できることです。HDDの場合、「突然死」ということがあるので、こちらの方が怖いかもしれません。

 HDDの場合は3年で壊れる場合もあれば、運が良ければ10年動作する場合もあります。しかしSSDは「利用頻度」によって必ず壊れるため、常に利用頻度をモニタする必要があります

 HDDの場合、故障はMTBFという時間単位で示され、SSDはデータ量です。

 まだSSDは若い技術なので、情報の蓄積がありません。実際のPTWがどれくらいなのか、まだ事例が少ないということです。

-複雑なシステム程壊れやすい-

さて、ここに90%(0.9)の稼働率の製品と90%の稼働率の製品とが組み合わさったとしましょう。
実際の稼働率は

0.9 × 0.9 = 0.81

となります。同じく 0.9(90%)の稼働率の製品が3つ組み合わさると 0.7 (70%)程度まで稼働率が落ちます。複雑なシステムはそれだけ、壊れやすいということになります。またシステムを二重化するなど、複雑性を増やすと、それだけ故障の原因がわかりにくくMTBFにも影響します。

99.9% の稼働率というのは1000時間に1時間の停止時間ということですから、約40日に1時間停止するということです。これでは使い物にならないと言われそうですね。99.99%程度であれば、大体1年は無停止ということになります。

石狩川流域をシリコンバレー化する勝手なプロジェクト




このエントリーをはてなブックマークに追加
islandcenter at 10:18│Comments(0)TrackBack(0)基本技術 | 雑感

トラックバックURL

コメントする

名前
 
  絵文字
 
 
データのバックアップ高倉健と「幸せの黄色いハンカチ」、「ドライブインいしかり」で変わったこと