質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.53%

  • 検索

    107questions

    検索は、あるデータの集まりの中から 目的のデータを見つけ出すことです。

非定型データの検索方法について。検索の技術的なアイデア

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 493

guitar-guitar

score 34

皆様、何か良いアイデア、ヒントやツールがあれば教えてください。

システム運用の中で数々のエラー対応を実施すると思います。
数年稼働しているシステムであれば、過去のエラーはインシデント管理ツールなどに蓄積され、
新規にエラーが発生した場合は過去事例をツールから検索することが多々あると思います。

◆実現したいこと
エラーが発生した場合この検索を自動でできるようにしたいです。

実際は出力エラーからプロセス名などを人手で切り取り、過去事例をインシデント管理ツール上から検索しています。
自動化を考えたとき
ログ出力のフォーマットが機器やエラー内容によって異なるため、決まったフォーマットに加工できず、
単純にSQL検索するすべが思いつきません。

◆エラーサンプル
2017/01/02 03:13:50 XXXXXXXX 2017-01-02 03:10:38.476 Error AM_SSO_SERVICE: SSOTokenService::getSessionInfo(): Error 35 for sso token ID XXXXXXXX 2017/01/02 03:13:50 XXXXXXXX 2017-01-02 03:10:38.476 Error 10812:775b9db810 PolicyEngine: Exception encountered: InternalException. 2017/01/02 03:13:50 XXXXXXXX 2017-01-02 03:10:38.476 Error 10812:775b9db810 PolicyEngine:

↑たとえばこんなエラーが発生した場合、発生に日時などは検索に必要ないので、『SSOTokenService』などの文字列を人手でコピーして
インシデント管理ツールから検索しています。
いくつか『SSOTokenService』がヒットした中で、同じようなエラーを人手で判断しています。
(日時などのパラメータが違いますが、エラーの内容は一致)
インシデント管理ツール上には、エラーログがそのまま記録されています。(ツールのDBはSQL Serverを利用)
エラーごとにフォーマットが異なります。

新規でエラーが発生した場合に、過去事例から同じようなエラーを検索できるアイデアが浮かばず・・・。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

0

ヒント1)
エラーサンプルでは、日時が "YYYY-MM-DD HH:MM:SS"の形式(A形式)か、"YYYY/MM/DD HH:MM:SS.mmm"の形式(B形式)で出されているように見えます。
日時の出力は、エラーメッセージの始まりや終わりである事が多いので、ログから個々のエラーに切り分ける際の目印になります。

また、このような書式の違いは、エラーが起きた機器の特定に役立ちます。

同じ機種の機器が複数稼働している場合で、個々の機器の時計が一致していない場合は、日時から個々の機器を特定できる事もあります。(ログに前後して記録されているのに、日付が15秒遅れのものが混在していれば、時間遅れの無い機器と、15秒遅れの機器が区別できる等)

ヒント2)
フォーマットが決まっていないという事なので、とりあえずエラーメッセージを集めます。 ある程度の数が集まったら、エラーメッセージ間の類似度(レーベンシュタイン距離などの指標を使う)を求めて、内容が似通っているエラーメッセージをグループ化してゆきます。 各グループのメッセージは共通している文字列を持つはずなので、それを検索キーに使える可能性があります。
エラーへの対処方法が類似しているか否かも、検討する必要があることに留意してください。

ヒント3)
メッセージがグループ化できると、そのメッセージが持つ共通したフォーマットが判って来るはずです。どこが変わらない部分で、どこがメッセージごとに異なる部分なのかといった知見が得られたら、「使われるフォーマットが判っている」という状況になる訳です。
そうすると、今度は判っているフォーマットの知識を使って、エラーや対処方法の整理が可能となりますし、それを検索する方法も判って来ると思います。


フォーマットが決まっていないといっても、しょせん機器が出力するデータですから、人が話す言葉ほどバリエーションも多くないですし、時々刻々変化していくものではないです。
そこで、エラーメッセージからフォーマットを見つけるとしたらという趣旨で回答させて頂きました。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/01/17 21:51

    とてもご親切にご回答いただきありがとうございます。
    また貴重なご意見いただきありがとうございます。前向きに検討して見ます。

    おっしゃる通りいくつかのフォーマットに分類できるとは思います。
    ですが検索PGに受け渡す際に、そのフォーマットの数だけ加工するPGが必要になるということですよね。
    やはりフォーマット加工せずに、いくつかのキーワードを抽出し、検索になげるといったこ事は難しいですかね。

    キャンセル

同じタグがついた質問を見る

  • 検索

    107questions

    検索は、あるデータの集まりの中から 目的のデータを見つけ出すことです。