vSANデータストアに関する障害の話

今回は、

「vSANデータストアに関する障害の話」

というタイトルでお送りします。

 

結構前にエンドユーザ様環境で発生した障害の話なのですが、

vSANのデータストアが溢れました...。
(溢れた…という表現が妥当なのかというのはあるのですが、、、。)

 

その当日、大分容量の大きな仮想マシン
他のデータストアから移行してきていた様で
vSANデータストアとしての全体使用量は
溢れるところまでは行ってなかったのですが75%を超えていて、、、
それよりも問題はvSANクラスタの中の特定ホスト数台のDiskに
データが集中してしまい、該当のDiskの使用率が
100%になっていたという状態でした。

 

実害としては、

該当のディスクにデータ(オブジェクト)がある仮想マシン
データストア内(ディスクに対して)で空き容量が無いために、
Suspendに近い状態となって動作しない状態となり、、、
vSANクラスタ内の仮想マシンに対して、かなり影響の大きい話となっていました。

 

動作的にはリバランスが必要になったホスト(ディスク)から
データを退避させるのにまず空きが必要なのに、
使える領域が少なくなってしまって
リバランスの処理が全く進まず、、、
という悪循環を繰り返していたような感じでした、、、。

 


このような状況から、、、
出来ること(メーカサポートからも言われたこと、、)というのは
『空き容量を確保してください』なわけで、

そして、
焼け石に水かもしれないとは思いながらも、
不要なデータ(各種OSなどのインストール用ISOや停止されている旧システムのVMDKなど、、、)を削除して、
少しでも容量を確保しつつ、リバランスが終わるのを
ひたすら、、、ディスクの状況を見守りながら待つ。

 

そんなわけで非常に幸運なことに
無事、、、データロストは無く復旧できたことから
リバランスの処理は遅々としてではあったものの
きっちりと動いていたんだなーと、再認識されられたとともに、、、

75%は超えないように運用するのが必須です、と、
改めてユーザ様には認識して頂かなければ、、、と、

ココロに決めさせられた事案でした。

 

いやー
本当に二度と遭遇したくないような障害でしたね。。

 

ご参考まで。