今回は、
「オンプレのVMware Identity Manager(Workspace One)についての考察(私見)」
というタイトルでお送りします。
※タイトル通り、あくまでも私見です!
VMware Workspace Oneのコンポーネントの1つであるIdentity Manager(以下VIDM)が朝一のタイミングで原因不明でスタックするという・・・恐ろしい事象が発生しています。
事象としては、(ロードバランサが前段にいてバランシングを掛けているために・・・)ユーザがアクセスした際に503エラーを返す。
しかも、この問題の影響としては、、、
シンクライアントを使い、ブラウザベースでVIDMで認証を行ってVDI(Horizon)にはシングルサインオンしている環境のため、
「一般ユーザはデスクトップに一切アクセスできなくなる・・・」という致命的大惨事を巻き起こします。。。
そのため、初めて問題が発生したときに復旧したVIDMサーバ再起動を行って、
とにかく早く復旧させなければいけない。
という話もあるかもしれませんが、障害発生後のログを取得してみても、
異常なログはなく、この事象自体は、、、3度再発、、、(再々発?)しているものの原因特定が出来ず、どの辺が問題になっていそうということすらも、、、全くもって原因不明な状況でした。。。
打つ手が無いまま放置するわけにもいかず、
4度目が発生してしまった際、一筋の光明??ともいうべき、サーバのCPU負荷が上がっていることを発見できたことで、一つの仮説が成り立ちました。
”VIDMにおいてもWEBサーバが動いてるはずだから、
その性能を左右するのはCPUのスレッド数ではないのか?
そのため朝一などのユーザアクセスが集中した際にはWEBサーバの処理が足りてないんじゃないか??"
この仮説はサポートの方にはお話していませんが・・・(笑、
原因不明のまま放置もできないので、可能性があるのなら・・・と、
ユーザの許可をもらってvCPUの割り当てを増やし、現状、、様子見中です。。。
増強前でもサイジングの推奨値通りにしていたんですけど(2020年3月時点)、
この仮説が当たっていて、再発しなくなることを願います。。。
これでも発生する様なら、、、
自分がいることで発生している業・・・??ですかね。。。
<2020年12月25日追記>
1ヶ月近くたちましたが・・・再発はしていません。
前回、1週間とかで再発したことを考えると、、、希望が持てるかも??
年明けに期待・・・!!です。