ヘルス管理が機能しない場合、またはその動作が期待通りでない場合は、以下の問題を調べることができます。
権限ログの検索
ヘルス・コントローラーは、HA マネージャーによって管理される分散リソースです。HA マネージャーはすべてのノード・エージェント・プロセスおよびデプロイメント・マネージャー・プロセス内に存在しており、
これらのプロセスの 1 つでアクティブになっています。プロセスが失敗した場合、ヘルス・コントローラーは別のノード・エージェントまたはデプロイメント・マネージャーのプロセスでアクティブになります。
ヘルス・コントローラーが実行している場所を判別するには、管理コンソールで「ランタイム操作」>「Extended Deployment」>「コア・コンポーネント」をクリックします。ヘルス・コントローラーのロケーションと安定度状況が表示されます。
パフォーマンス・アドバイザーがデフォルトのメモリー・リーク・ヘルス・ポリシーで有効
デフォルトのメモリー・リーク・ヘルス・ポリシーではパフォーマンス・アドバイザーの機能が使用されるので、このポリシーにメンバーが割り当てられた時点で、パフォーマンス・アドバイザーが使用可能になります。パフォーマンス・アドバイザーを使用不可にするには、このヘルス・ポリシーを除去するか、このヘルス・ポリシーのメンバーシップを限定する必要があります。将来使用するためにヘルス・ポリシーを保存するには、デフォルトのメモリー・リーク・ポリシーを保持するが、メンバーのすべてを除去することを考慮してください。メンバーを変更するには、「動作ポリシー」>「ヘルス・ポリシー」>「Default_Memory_Leak」をクリックします。
ヘルス・ポリシーで特定のメンバーを追加および除去することで、ヘルス・ポリシーのメンバーシップを編集できます。
ヘルス・コントローラーの設定値
以下のリストには、
ヘルス・コントローラーの設定値の結果として発生する問題が含まれています。
- ヘルス・コントローラーが使用不可です。
- 「動作ポリシー」>「オートノミック・コントローラー」>「ヘルス・コントローラー」をクリックして管理コンソールの設定を確認し、「構成」タブと「ランタイム」タブの両方を選択します。ヘルス・コントローラーは、デフォルトでは有効です。
- 現時点での再始動は禁止されています。
- 「動作ポリシー」>「オートノミック・コントローラー」>「ヘルス・コントローラー」をクリックし、「Prohibited restart」フィールドを選択することによって、管理コンソールの禁止された再始動時期を確認します。
デフォルトでは、禁止されている時期はありません。
- 前回の再始動後の再始動が早すぎます。
- 管理コンソールの最小再始動間隔を確認するには、「動作ポリシー」>「オートノミック・コントローラー」>「ヘルス・コントローラー」を
クリックし、「Minimum Restart Interval」フィールドを変更します。デフォルトでは、定義された最小間隔はありません。
- 制御サイクルが長過ぎます。
- 管理コンソールの制御サイクルの長さを確認するには、「動作ポリシー」>「オートノミック・コントローラー」>「ヘルス・コントローラー」を
クリックし、必要に応じてその値を調整します。ヘルス・コントローラーはポリシー違反を定期的に検査します。
その制御サイクルが長過ぎる場合は、サーバーの再始動が遅れる可能性があります。
- サーバーの再始動が X 回連続して行われており、
ヘルス状態が継続して違反しています。
この場合、
X は、
ヘルス・コントローラーの最大連続再始動のパラメーターを示しています。
ヘルス・コントローラーは、再始動では問題が解決しないと判断し、サーバーの再始動を無効にします。
次のメッセージがログに表示されます。
WXDH0011W: サーバー「サーバー名」が、最大数の検証失敗を超えました: 再始動が使用不可に設定されます。
ヘルス・コントローラーは、サーバーのモニターを継続し、ヘルス・ポリシーに違反している場合は、ログに次のメッセージを表示します。
WXDH0012W: Server servername with restarts disabled failed health check.
以下のアクションのいずれかを実行することにより、
サーバーの再始動を使用可能にできます。
ヘルス・ポリシーの設定値
ヘルス・ポリシーの設定値の結果として、以下の問題が発生します。
- サーバーがヘルス・ポリシーの一部ではありません。
- 管理コンソールで、ヘルス・ポリシー・メンバーシップがサーバーに適用されているか、「動作ポリシー」>「ヘルス・ポリシー」を
クリックして確認します。
- サーバーを含むポリシーのリアクション・モードが監視されています。
- 「ランタイム操作」>「タスク管理」>「ランタイム・タスク」を
クリックして管理コンソールを調べ、監視モードのポリシーに対する再始動アクションの承認要求を見つけます。リアクション・モードとして「自動」を設定すると、
サーバーは自動的に再始動します。次のメッセージが、
監視状態のログに書き込まれます。
WXDH0024I: Server server name has violated the health policy health condition, reaction mode is supervised.
- サーバーが静的クラスターのメンバーで、実行中の唯一のクラスター・メンバーです。
- ヘルス・ポリシーはクラスターのすべてのメンバーを同時に停止しません。
あるクラスターに 1 つのクラスター・メンバーが存在するか、または 1 つのクラスター・メンバーが実行中の場合は、そのクラスターは再始動しません。
- サーバーが動的クラスターのメンバーで、実行中のインスタンスの数が最小値を超えずに、
配置コントローラーが使用不可の状態になっています。
- 管理コンソールで「サーバー」>「動的クラスター」をクリックして、動的クラスターの必要な最小インスタンス数を確認します。この場合、ヘルス管理は、最小インスタンス数パラメーターを使用して、
動的クラスターを静的クラスターのように扱います。
- ヘルス・コントローラーがポリシーを受け取っていません。
- ヘルス・コントローラーは、ヘルス・ポリシーが作成されるデプロイメント・マネージャー上では実行されません。
ヘルス・コントローラーが始動した後にデプロイメント・マネージャーが再始動されると、ヘルス・コントローラーは新規ポリシーを持たないことがあります。
以下のステップを実行することで、この問題を緩和できます。
- ヘルス・コントローラーを無効にします。管理コンソールで、「動作ポリシー」>「オートノミック・マネージャー」>「ヘルス・コントローラー」をクリックします。
- 構成リポジトリーをバックエンド・ノードと同期させます。管理コンソールで、「システム管理」>「ノード」とクリックします。同期化するノードを選択し、「同期化」をクリックします。
- ヘルス・コントローラーを再始動します。管理コンソールで、「動作ポリシー」>「オートノミック・マネージャー」>「ヘルス・コントローラー」をクリックします。
- 構成リポジトリーをバックエンド・ノードと同期させます。管理コンソールで、「システム管理」>「ノード」とクリックします。同期化するノードを選択し、「同期化」をクリックします。
アプリケーション配置コントローラーの対話
以下のリストには、
ヘルス管理とアプリケーション配置コントローラーの対話の結果として発生する
問題が含まれています。
- サーバーは動的クラスターのメンバーですが、
配置コントローラーにコンタクトできません。
- 動的クラスター・メンバーの場合、サーバーが再始動できるかどうかを
判定するために、ヘルス・モニターを行ってアプリケーション配置コントローラーを確認します。アプリケーション配置コントローラーが使用可能ではあるが、コンタクトできない場合は、
次のメッセージがログに表示されます。
WXDH1018E: 配置コントローラーに接続できません。
配置コントローラーが稼働していることを確認します。
ヘルス・コントローラーが実行している場所を判別するには、管理コンソールで「ランタイム操作」>「Extended Deployment」>「コア・コンポーネント」をクリックします。ヘルス・コントローラーのロケーションと安定度状況が表示されます。ヘルス・コントローラーは、現在のロケーションで示される特定のノード・エージェントまたはデプロイメント・マネージャーへのメッセージをログに記録します。
- サーバーが動的クラスターのメンバーで、配置コントローラーが稼働しており、
配置コントローラーがヘルス管理にサーバーを再始動させないように指示します。
- 配置コントローラーは、継続的に稼働するサーバー・インスタンスを必要とする場合があります。
- サーバーが停止しますが、始動しません。
- 動的クラスターでは、次のいくつかの形式の 1 つを使用して再始動させることができます。
- 同じ場所で再始動します (サーバーの停止、サーバーの始動)。
- 別のノードでサーバー・インスタンスを開始し、
障害のあるものを停止します。
- 障害のあるサーバーのみを停止します。ただし、残りのアプリケーション・
インスタンスがデマンドを満たすことが前提です。
配置コントローラーは、再始動の形式、および (必要に応じて) 新規インスタンスを開始する場所を決定します。
動的クラスターで再始動が実行された後、ヘルス管理は配置コントローラーに
その配置を再計算するように要求を出します。
センサー問題
以下のリストには、
ヘルス管理とノード・グループ・メンバーシップの設定値の結果として発生する
問題が含まれています。
- センサー・データがサーバーから受信されていません。
-
ヘルス管理は、
ポリシーが必要とするセンサーからのデータを受信していない場合は、
ポリシー違反を検出することができません。
制御サイクル時にセンサー・データが受信されない場合、
ヘルス管理は次のログ・メッセージを出力します。
WXDH3001E: No sensor data received during control cycle from server server_name for health class healthpolicy.
応答時間状態の場合、
ヘルス管理はオンデマンド・ルーター (ODR) からデータを受信します。
要求が ODR を介して送信されるまでは、これらの状態のデータは生成されません。