質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.80%

C言語のregex.hライブラリを使っての正規表現がうまくいきません。

解決済

回答 1

投稿

  • 評価
  • クリップ 1
  • VIEW 4,714

score 26

ポートスキャンツールnmapコマンドの結果から正規表現で、ある行を抽出したいのですが、それがうまくいきません。
使用言語はc言語で、regex.hというc言語の正規表現ライブラリを使用しています。

例えばポートスキャンをして、以下の結果が出たとします。

Starting Nmap 6.40 ( http://nmap.org ) at 2016-01-01 12:00 JST
Nmap scan report for localhost (127.0.0.1)
Host is up (0.0000080s latency).
Not shown: 995 closed ports
PORT     STATE SERVICE
22/tcp   open  ssh
80/tcp   open  http

Nmap done: 1 IP address (1 host up) scanned in 2.44 seconds

そこから[22/tcp open ssh〜80/tcp open http]という部分を抽出したいのですが、それがうまくいきません。

正規表現パターンが以下です。
(\\d+)?\\/(tcp|udp).+(open|closed|filtered).+

patternMatch[i].rm_soにマッチした最初の文字の位置が入るのですが、これの最初の文字の位置が[22/tcp open ssh]の[/]が最初の位置として入ってしまいます。

patternMatch[i].rm_eoに最後の文字の位置が入るのですが、これも[Nmap done: 1 IP address (1 host up) scanned in 2.44 seconds]の[seconds]の中の最後の[s]が入ってしまいます。

(ちなみにpatternMathはchar型配列の変数です)

正規表現のパターンが間違っていると思うのですが、正規表現の勉強を初めてまだ浅くかなりいろいろ試しているのですが、うまくいきません。

[22/tcp open ssh〜80/tcp open http]が抽出できる正規表現のパターンを教えて頂けないでしょうか。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

C言語のregex.hは正直使ったこと無いので詳しくは無いんですが。

どうやら、regex.hはPOSIX標準の正規表現ライブラリーなので、Perl拡張の正規表現の文字クラスである\d(C言語上のリテラルでは\\d)は対応していないようです。

なので、POSIX標準でも対応している[0-9]を使えば良さそうです。

参考までに、試したコードを載せておきます。

  • サンプルコード
#include <stdio.h>
#include <regex.h>

#define N 4

int main()
{
    regex_t reg;
    regmatch_t match[N];
    int i, j, k;

    const char *pattern = "([0-9]+)?\\/(tcp|udp).+(open|closed|filtered).+";
    char *s[] = {
        "Starting Nmap 6.40 ( http://nmap.org ) at 2016-01-01 12:00 JST",
        "Nmap scan report for localhost (127.0.0.1)",
        "Host is up (0.0000080s latency).",
        "Not shown: 995 closed ports",
        "PORT     STATE SERVICE",
        "22/tcp   open  ssh",
        "80/tcp   open  http",
        "",
        "Nmap done: 1 IP address (1 host up) scanned in 2.44 seconds",
    };
    const int size = sizeof s / sizeof s[0];

    regcomp(&reg, pattern, REG_EXTENDED);

    for (i = 0; i < size; i++) {
        printf("[%s] => ", s[i]);
        if (regexec(&reg, s[i], N, match, 0) == REG_NOMATCH) {
            printf("not matched.");
        } else {
            printf("matched. [");
            for (j = 0; j < N; j++) {
                for (k = match[j].rm_so; k < match[j].rm_eo; k++) {
                    putchar(s[i][k]);
                }
                printf(", ");
            }
            printf("]");
        }
        printf("\n");
    }

    regfree(&reg);

    return 0;
}
  • 実行結果
[Starting Nmap 6.40 ( http://nmap.org ) at 2016-01-01 12:00 JST] => not matched.
[Nmap scan report for localhost (127.0.0.1)] => not matched.
[Host is up (0.0000080s latency).] => not matched.
[Not shown: 995 closed ports] => not matched.
[PORT     STATE SERVICE] => not matched.
[22/tcp   open  ssh] => matched. [22/tcp   open  ssh, 22, tcp, open, ]
[80/tcp   open  http] => matched. [80/tcp   open  http, 80, tcp, open, ]
[] => not matched.
[Nmap done: 1 IP address (1 host up) scanned in 2.44 seconds] => not matched.

  
  

 参考リンク

正規表現メモ
http://www.kt.rim.or.jp/~kbk/regex/regex.html

正規表現 - Wikipedia
https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E8%A1%A8%E7%8F%BE

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/01/04 19:39

    回答ありがとうございます。
    正規表現パターンを試したところ、実際に抽出することに成功しました。
    もうひとつ質問で申し訳ないのですが、今度は[22/tcp open ssh]でいうなら、[ssh]も取り出したいのですが、そこがうまくいきません。

    [([0-9]+)?\\/(tcp|udp).+(open|closed|filtered)((\\s)+?).+]と[([0-9]+)?\\/(tcp|udp).+(open|closed|filtered)((\\s)+?)((\\l)+?)]を試しましたが、結果は変わりませんでした。
    正しいパターンを教えて頂けないでしょうか。

    キャンセル

  • 2016/01/04 20:43 編集

    \sなどもPerlの拡張なので、ここでは使えません。
    おまけに、[:alpha:]などの文字クラスも使えないようです。
    少なくとも私の環境(GCC 4.9.3 cygwin版と、OSX Apple LLVM v6.1.0)ではダメでした。

    回答欄に少し参考リンクを付けておきましたので、参考にしてみてください。
    ただ、残念ながら"regex.h"のサポート範囲については、資料が見つかりませんでした。


    なので、\sの代わりに、"[ \t]"にしてみましょうか。
    それと行末の'$'も入れておきます。
    \sの代わりにするなら、[ \t\r\n]かもしれませんが、改行が来ることは想定していないので、「半角スペースorタブ文字」としました。

    "([0-9]+)?\\/(tcp|udp).+(open|closed|filtered)[ \t]+([a-z]+)$"

    open...の前の".+"もこれに統一したほうが分かりやすいかもですね。

    それと、カッコが1つ増える場合はmatch配列のサイズを増やさないといけません。
    #define N 4 を 5 に増やしてください。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.80%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る