質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.34%

  • Python

    9134questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    7342questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python3 日本語を含む文字列の検索

解決済

回答 3

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,584

starrow1103

score 103

 環境

Python 3.6
MacOS Sierra

 やりたいこと

textから特定の範囲に何が含まれていても範囲指定で検索できる書き方がわかりません
以下のようなテキストがあったとします([]はリストではない。ワードプレスとかでのショートカット機能みたいなもんです)

text = 'あかさたな[tooltip content="何がかかれているかわからない"]単語[/tooltip]はまやらわ'

↓ここから[tooltip]〜[/tooltip]で囲まれた文字列だけを見つけたい

単語

<イメージ>

word = re.findall("[tooltip+hogehoge+[/tooltip]",text)

これができなくて禿げそうです。

お願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

+1

解決されましたが、tell_kさんの回答を参考に、tooltip部分も任意にマッチングするパターンにしてみました。
ざっと動作させたところ問題はなさそうですが、参考まで。

import re

rep = re.compile("\[(\w+).*?\](.*?)\[/\\1\s*\]") #[hoge~]単語[/hoge]
text = 'あかさたな[tooltip content="何がかかれているかわからない"]単語[/tooltip]はまやらわ'
#text = 'ああ[tooltip content="hoge"]単語あ[/tooltip]いい[item attr="huga"]単語い[/item]うう[a][/a]'

matchs = rep.finditer(text)
for match in matchs:
    print( match.group(2)) # 単語は2番目のグループ
    #print( match.groups())

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/04/03 17:59

    なるほど、ありがとうございます。

    .*? が今回のポイントだったようです。

    ただ、後半の \\1\s*\ の部分がつかめません^^;
    どういう意味なのでしょうか

    キャンセル

  • 2017/04/03 18:06

    「\\1」は正規表現の「後方参照」です。
    「[tooltip」の「tooptip」部分を後ろの「[/????」の???の部分で参照できるようになります。
    「\s*」は[/tooltipのうしろにある末尾の空白は許す→ [/tooltip ]はOKという意味です。

    キャンセル

  • 2017/04/03 18:10

    なるほどありがとうございました!

    ちょくちょくいじって、勉強してみますね。

    キャンセル

checkベストアンサー

0

tooltipの属性? の contentがあったりなかったり、スペースが一個じゃなかったり、他の属性名だった場合なども考慮して緩めの正規表現を作ってみました。

import re

text =  'あかさたな[tooltip content="何がかかれているかわからない"]単語[/tooltip]はまやらわ[tooltip other="AA"]テスト1[/tooltip][tooltip]テスト2[/tooltip]は[tooltip   content="AAA"]テスト3[/tooltip]'
for r in re.findall(r'\[tooltip[^\[]*\](.+?)\[/tooltip\]', text):
    print(r)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/04/03 15:12

    ありがとうございます!
    より範囲が広いバージョンを提供してくださったこちらをベストアンサーとさせていただきます。

    本当は、[tooltip][/tooltip]で囲まれた文字列だけ残したかったので、
    以下のように少し修正したらうまく目的のものを作ることができました。

    ```py3
    match =re.findall(r'(\[tooltip[^\[]*\](.+?)\[/tooltip\])', text)
    for m in match:
    text = text.replace(m[0],m[1])
    print(text)
    ```

    ありがとうございました!

    キャンセル

0

正規表現を使用する必要があると思います。

>>> import re
>>> match =re.search(r'\[tooltip\scontent="\w+"\](\w+)\[/tooltip\]', t)
>>> match.group(1)
'単語'

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/04/03 15:09

    ありがとうございます!大変助かりました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.34%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • Python

    9134questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    7342questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。