正規表現で文字列中の単語を抽出したい

実現したいこと

正規表現で文字列を抽出したい

前提

Turtle形式のデータを用いて、目的語のリテラルだけを抽出しようとしています。
"○○　△△　□□@ja"
という文字列に対して、□□の箇所だけを抽出する正規表現の記法を探しています

実際に用いている文字列は以下の2つです。
'<教育研協議会> <rdf-schema#label> "人間と性教育研究協議会"@ja .'
'<教育研協議会> <rdf-schema#label> "人間と性教育研究協議会"@ja .'
2つ目は文字列中に空白があります。

「2つ目の空白より後から＠の直前まで」の文字列を抽出する正規表現を書きたいです。

発生している問題・エラーメッセージ

['"人間と性教育研究協議会"']
['性教育研究協議会"']

上記のように「@」の直前までの文字列を抽出するという処理はできていると思うのですが
2つ目の文字列の「人間と」という部分が抜けてしまっています。
「人間と　性教育研究協議会」と抽出したいです。

該当のソースコード

 r'([^ ]+)[.*?=@]'

試したこと

上記以外にもいくつか試したり、chatGPTなども用いながら考えたのですが、うまくいきませんでした

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答3件

ベストアンサー

「2つ目の空白より後から＠の直前まで」

<教育研協議会>や<rdf-schema#label>も使いたいだろうから、まず3つに分割するとして、正規表現を使わず、

Python
1s  = '<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .'
2x,y,z = s.split(" ",2)
3print(z)
4w = z.rsplit("@",1)[0]
5print(w)

でしょうか。

どうしても「正規表現だけで」と言うことなら、

Python
1s  = '<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .'
2import re
3w = re.search(r"^[^ ]+ [^ ]+ (.*)@",s).group(1)
4print(w)

なお、@が複数あった場合に何処までにするか不明なので「最後の@まで」としています。

投稿2023/09/19 16:41

otn

総合スコア86295

otn

2023/09/19 16:45

re.search(r"^([^ ]+) ([^ ]+) ((.*)@.*)",s) にすれば、group(1)、(2)、(3)で各列の要素、group(4)で「第3列の@の前まで」が得られます。

行動規範の内容に同意します

正規表現で文字列を抽出したい

単純な分割(split)でもよいかと思います。

python
1text = [
2    '<教育研協議会> <rdf-schema#label> "人間と性教育研究協議会"@ja .',
3    '<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .',
4]
5
6for t in text:
7    m = t.split(' ', 2)[-1].split('@')[0].strip('"')
8    print(m)
9
10# 人間と性教育研究協議会
11# 人間と 性教育研究協議会

投稿2023/09/19 16:20

melian

総合スコア21118

"○○ △△ □□@ja"

という文字列に対して、□□の箇所だけを抽出する正規表現の記法

記述例を下記に示します。

Python
1import re
2
3data = ['<教育研協議会> <rdf-schema#label> "人間と性教育研究協議会"@ja .',
4        '<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .']
5
6ptn = re.compile(r'^[^ ]+ [^ ]+ (.+)@ja.*$')
7
8for s in data:
9    print(ptn.sub(r'\1', s))
10# "人間と性教育研究協議会"
11# "人間と 性教育研究協議会"