ストレージを保守・運用していると、よく見るのがSoft Media Errorというトラップ内容。
エンド様によっては基本無視・一件でも発生したら正常性の確認をする。
みたいで対応がまちまち過ぎて無視していいイベントなのか、無視していいイベントなのかが分かりずらい。。。。
ぼく「これ、どんな意味なんですか?」
先輩「Diskで何かエラーあったんじゃん?(適当)」
ぼく「ダメだこのパイセン、早く滅ぼさないと」
というわけで正常性確認のついでに問合せてみた。
■事象
Soft Media Error発生、正常性の有無と本エラーの意味を教えて頂きたい。
■回答
単発ですので静観可能です(要約)
Soft Media Errorについては、、
Soft Media Errorは不良ブロックを見つけたストレージが、そのブロックに対してDrive ECC、もしくはRAIDの機能を利用して正しい情報を(再度)書き込んで修復、もしくは当該ブロックが利用出来ないと判断した場合にはスペアセクター(ブロック)に書き込んで修復したことを報告するものです。
※エラーと出力されますが修復済みを意味しています
したがって、単発のエラーであれば無視をして頂いて問題ないのですが、頻発するようでしたらEMCカスタマーサポートセンターへ状況確認の依頼を行うことをお勧めします。(その際には調査のためにSPCollectログを提供する必要があります。)
という内容のコミュニティサイトのURLも頂いた。
なるほど、因みに原因の特定はできる時とできない時があり、これは正常な動作であるため、原因特定は時間的にコスパが悪い印象を受けた。
また、エラーが頻発すると、VNX・Unityはそれぞれ対象のDiskを切り離し、HotSpareと呼ばれるスペアDiskにデータを退避するため特に慌てて対処する必要はないらしい。
(まぁデータ退避できなくてもRAID組んでるんで大丈夫なんですけどね。)
上手くできてるなーー