質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python 2.7

    1457questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

  • 正規表現

    924questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Pythonでの複数項目の後読み(先読み)

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 885

UMA00

score 12

前提・実現したいこと

Pythonで文字列を検索するプログラミングを作成しています。
以下のように、複数項目の後読み(および先読み。以下、「後読み」とだけ表記します)を行いたいです。
つまり、「<AAA>の中の<BBB>の中の111」を取り出したいです。
string1のときは、普通の後読みを行っているので勿論「111」と表示されます。
問題はstring2の方で、こちらは、<AAA>と<BBB>の間に<CCC>がはさまっています
「<AAA>の後読みを行い、その後<BBB>の後読みを行う」という2項目の後読みを試みましたが、以下のエラーが表示されました。
調べたところ、後読みは一定文字列しか扱うことができず、きちんと「<AAA><CCC><BBB>」と書くしか無さそうでした。
string1とstring2を同様の後読みにより処理したいという希望があり、このような点で頭を悩ませています。
何か上手い方法があればご教授下さい。

発生している問題・エラーメッセージ

111
Traceback (most recent call last):
  File "question0.py", line 13, in <module>
    print matchOB2.group()
AttributeError: 'NoneType' object has no attribute 'group'

該当のソースコード

import re

string1 = '<AAA><BBB>111</BBB></AAA>'
string2 = '<AAA><CCC><BBB>111</BBB></CCC></AAA>'

pattern1 = re.compile(r'(?<=<AAA><BBB>)\d+(?=</BBB></AAA>)')
pattern2 = re.compile(r'(?<=<AAA>)(?<=<BBB>)\d+(?=</BBB>)(?=</AAA>)')

matchOB1 = re.search(pattern1, string1)
matchOB2 = re.search(pattern2, string2)

print matchOB1.group()
print matchOB2.group()

試したこと

例えば
「pattern2 = re.compile(r'(?<=<AAA>).*?(?<=<BBB>)\d+(?=</BBB>).*?(?=</AAA>)')」
など、他の正規表現も利用してみました。すると
<CCC><BBB>111</BBB></CCC>
と出力されました。
しかし今は、「111」という文字列のみ取得したいので、他の部分は不要です。

補足情報(言語/FW/ツール等のバージョンなど)

python2.7

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

これでほとんどできていると思います。

pattern2 = re.compile(r'(?<=<AAA>).*?(?<=<BBB>)\d+(?=</BBB>).*?(?=</AAA>)')

グループを使って( \d+ の部分に注目 )

pattern2 = re.compile(r'(?<=<AAA>).*?(?<=<BBB>)(\d+)(?=</BBB>).*?(?=</AAA>)')

結果を出すときに

print matchOB2.group(1)


とすればとれるでしょう。

グループ/名前付きグループについて調べてみてください。

docs.python.jp 正規表現 グルーピング

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/08/14 22:30

    ありがとうございます。解決しました!!
    グルーピングを使用するわけですね、これでまた正規表現を使用した検索の幅が広がりそうです。
    ※group()はgroup(0)を表していて、Matchオブジェクトメソッドのデフォルトの引数だったんですね。何も考えず、おまじないのように「group()」を使用していました…。

    キャンセル

同じタグがついた質問を見る

  • Python 2.7

    1457questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

  • 正規表現

    924questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。