障害発生時の初動調査および情報採取のための事前準備

[概  要]

障害発生に備え、あらかじめ初動調査を把握しておくことや、情報採取のために準備しておくことは、障害の原因を調査するうえで大変重要です。

本ドキュメントでは、 障害発生時に、お問合せの前に事前に確認、準備すべき内容について説明します。

 

 

[注意事項]

本ドキュメントの内容は、Asianux Server 3 を前提として記載しています。

本ドキュメントの内容は、予告なしに変更される場合があります。

 

 

[初動調査]
障害発生の際には、以下の点についてご確認ください。これらは、サポート窓口へお問合せいただいた際にも質問される内容ですので、事前に準備していただくことにより問題の早期解決に役立ちます。
※サポート窓口へお問い合わせを頂く際は「お問い合わせフォーマット」もご利用頂けます。

 

使用環境の確認

・ハードウェアの構成

・使用OSとバージョン

・アプリケーションの種類、バージョン

 

現象内容についての把握

・現象発生日時

・現象と問題点の詳細

・現象の再現性の有無について

・現象に再現性がある場合、その再現手順

・現象発生日時の近辺に行っていた操作内容

・コンソールに表示されるエラーメッセージ

・その他の気づいた点について

 

[既存のバグの有無]
例えば、特定のアプリケーション使用時に障害が発生するような場合には、既存のバグの有無を確認することで、問題の早期解決につながる場合があります。

 

Asianux Server 3 の場合、弊社 Asianux Technical Support Network(TSN) から既存のバグの有無を確認することができます。

 

[情報採取のための事前準備]

ミラクル・リナックス カスタマーサポートセンターでは、[初動調査][既存のバグの有無]と併せて、現象に応じた情報採取をお願いしています。採取依頼のあった情報を採取できるように、事前に準備をしていただくことをお勧めします。

 

mcinfoによる情報採取

 

Asianux Server 3 に含まれる/usr/sbin/mcinfo は、現在稼動しているホストの各種ログやハードウェア情報、インストールされているパッケージ情報など、さまざまな情報を取得するコマンドです。

なお、mcinfoの取得情報の中には、rootユーザーでしか取得できないものもあるため、/usr/sbin/mcinfo コマンドはrootユーザーで実行します。実行結果は標準出力に出力されますので、必要に応じてリダイレクトを使ってファイルに書き込む必要があります。

 

 

# /usr/sbin/mcinfo > mcinfo.log

 

 

※ 取得情報をメールに添付することなどを考慮し、以下のように圧縮して採取しておくことをおすすめします。

 

 

# /usr/sbin/mcinfo | gzip > mcinfo.log.gz

 

 

mcinfoの詳細については、「Asianux Server 3 サーバ構築・運用ガイド27.4mcinfoの使用方法」をご参照ください。

 

 

/var/logディレクトリ配下の情報採取

 

/var/logディレクトリ配下には、各種ログが置かれています。

障害時には、システム再起動後に、取り急ぎ/var/logディレクトリ配下をすべて採取しておくことも調査を迅速にすすめるためには有効です。

 

)tarコマンドで、var/logディレクトリ配下のログをすべて、カレントディレクトリ配下に保存する場合

 ※ファイル名は任意です。以下の例では、ファイル名に日付と時刻を入れています。

 

# tar cvzf $(date '+%Y%m%d%H%M%S')_log.tgz /var/log/

 

 

シリアルコンソールによる情報採取

 

「コンソール」とは、一般的にシステムのメッセージ出力装置のことを指し、「シリアルコンソール」とは、サーバのシリアルポートとシリアルケーブルで直接つながっている端末のモニタとキーボードを指します。

 

・カーネルパニック時の情報採取

シリアルコンソールの設定を行っている場合には、カーネルパニック時にコンソールに出力されるメッセージは、同時にシリアルポート経由でシリアルコンソール端末へ送られるため、メッセージを保存することが可能となります。

 

・ハングアップ時の情報採取

シリアルコンソールの設定を行っている場合には、キーボード操作不可能となり、Shellのコマンド入力ができない場合でも、magic SysRq keyを使用して、シリアルポート経由で情報を採取できる可能性が高くなります。

 

(シリアルコンソールの設定方法については、技術ドキュメント[トラブルシューティング]→[シリアルコンソールの設定]をご参照ください。)

(magic SysRq keyについては技術ドキュメント[トラブルシューティング]→[magic SysRq keyについて]をご参照ください。)

 

netconsoleによる情報採取

 

netconsoleとは、printk メッセージ(コンソールに出力されるメッセージ)UDP経由でリモートマシンへ記録するモジュールです。

シリアルコンソールが使用できない環境において、netconsoleを使用することで、ネットワーク経由でリモートマシンに情報を採取できる可能性が高くなります。

 

(netconsoleの設定方法については、技術ドキュメント[トラブルシューティング]→[netconsoleによる障害時の情報採取について]をご参照ください。)

 

kdumpによるdump情報採取

 

カーネルダンプとは、カーネルがクラッシュした際のメモリの内容をディスクに出力したものです。

kdump とは、カーネルダンプを取得するためのツールです。ダンプ情報をクラッシュしたカーネルから取得するのではなく、新しく起動したカーネルから取得するため、信頼性の高いカーネルダンプを取得することができます。

 

kdumpの設定方法については、「Asianux Server 3 サーバ構築・運用ガイド27.6kdumpの設定」をご参照ください。

 

その他

 

ミラクル・リナックス カスタマーサポートセンターでは、お問合せの内容に応じて、問題解決に必要な情報を考慮してご案内しております。

  

[更新履歴]

・2008年 3月 3日 新規作成

・2008年 4月 2日 mcinfoの圧縮について追記

・2008年 4月 25日 /var/log配下の採取について追記

・2012年 3月 30日 お問い合わせフォーマットについて追記