「Windows Server 2019」のクラスター環境上でシステムの可用性をテストするために、WSFC標準機能のエラーシュミレート(擬似障害発生機能)で意図的に擬似障害を発生させ、フェールオーバーするかどうか検証しました。当初、1日に1~2回程度のフェールオーバー検証ではフェールオーバーの際、所有者ノードが切り替わり汎用サービスに登録したサービスが、別ノードに切り替わる・別ノードにサービスが実行中になる想定通りの動作をしていましたがデフォルトの設定値上、短時間で複数回のフェールオーバーは、回数制限が決まっており回数を超えると失敗状態になりフェールオーバーすることはできません。
本記事では、クライアントアクセスポイントに汎用サービスを登録 -> 他のアクション -> エラーシュミレートを連続して同じ操作を複数回実行しました。

短時間で複数回のフェールオーバー検証をしていたため、デフォルトの設定値どおり「状態」が失敗のままになりました。

クラスターイベントでエラーログ(イベント ID:1254)では、以下ログが記録されていました。
クラスター化された役割 ‘CAP01’ がフェールオーバーのしきい値を超えました。割り当てられたフェールオーバー期間内に試行できる構成済みのフェールオーバー回数の上限に達したため、エラー状態のままとなります。この役割をオンラインにしたり、クラスター内の別の役割にフェールオーバーしたりするために、これ以上の処理が試行されることはありません。エラーに関係するイベントを確認してください。エラーの原因となった問題を解決した後で、この役割を手動でオンラインにするか、再起動の遅延期間が過ぎた後で、クラスターから役割をオンラインにすることができます。

短時間で複数回のフェールオーバー検証をするため、「指定した期間内の最大エラー数」の設定値を確認し変更します。クライアントアクセスポイントを右クリック ->「プロパティ」を選択します。

「フェールオーバー」タブを選択 ->「指定した期間内の最大エラー数」の回数を増やすことで期間内のフェールオーバー回数を変更することができます。
