トラブルシューティング・プロセスの最初のステップは、問題の内容を完全に記述することです。問題の記述によって、問題の原因を突き止めるためにどこから着手すべきかを、お客様自身と IBM 技術サポート担当者がわかるようになります。 このステップでは、以下の基本的な項目について明確にする必要があります。
通常は、これらの質問に回答することで問題が適切に記述され、問題解決につながります。
問題の記述を始めるときの最も明確な質問は「問題は何か」ということです。この質問は単純なように思われますが、問題をより具体的に説明する、さまざまな観点からの質問に細分化することができます。細分化した質問には以下のようなものがあります。
問題の発生源を特定することは、必ずしも簡単ではありませんが、これは問題を解決する上で最も重要な段階の 1 つです。報告元のコンポーネントと障害が発生しているコンポーネントの間に、いくつものテクノロジー層が存在している場合があります。ネットワーク、データ・グリッド、およびサーバーは、問題を調査するときに考慮すべきコンポーネントの一部にすぎません。
次のような質問は、問題の層の切り分けのため、問題の発生箇所に焦点が集まるようにします。
ある層で問題が報告されても、必ずしもその層が問題の発生源とは限りません。問題の発生源の特定作業には、問題が存在する環境を理解することが含まれます。しばらく時間をかけて、問題のある環境のすべての内容 (オペレーティング・システムとバージョン、対応するすべてのソフトウェアとバージョン、ハードウェア情報など) を記述してください。サポートされる構成の環境で実行していることを確認してください。多くの場合、問題をトレースすると、ソフトウェア・レベルに互換性がないことがわかります (一緒に実行することを意図していないソフトウェア・レベルであったり、完全には一緒にテストされていないソフトウェア・レベルであったりします)。
障害発生に至るイベントについて、特に発生が 1 回限りのケースについて、詳しい時系列対照表を作成してください。最も簡単に時系列対照表を作成する方法は、逆方向に作業することです。エラーが報告された時点 (できればミリ秒単位に至るまで精密に) から開始して、使用可能なログと情報を通じて逆方向に作業します。一般に、診断ログ内で最初に見つかる疑わしいイベントまで調べる必要があります。
イベントの詳細な時系列対照表を作成するには、以下の質問に答えます。
このようなタイプの質問に回答することで、問題調査のための基準の枠組みが得られます。
問題の発生時に稼働していたシステムとアプリケーションを知ることは、トラブルシューティングの重要な部分です。ご使用の環境に関する次のような質問は、問題の根本原因の特定に役立ちます。
このようなタイプの質問に回答することによって、問題が発生した環境が明らかになり、依存関係の相関付けができます。同じ時間の頃に複数の問題が発生したからといって、それらの問題が必ずしも関連しているとは限らないことを覚えておいてください。
トラブルシューティングの観点からすると、理想的な問題とは、再現できる問題であるということです。通常、問題を再現できる場合は、調査に役立てるために自由に使用できるツールまたは手順の数が多くなります。このため、再現できる問題は、多くの場合デバッグや解決が簡単です。
しかし、再現できる問題には欠点があります。すなわち、その問題がビジネスに大きな影響を与える場合、問題が再発生することは好ましくありません。可能であれば、テスト環境または開発環境で問題を再現してください。一般に、このようにすると、調査時の柔軟性と管理能力が向上します。