質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.31%
データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

504閲覧

正規表現で文字列中の単語を抽出したい

oken

総合スコア3

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2023/09/19 15:43

編集2023/09/19 16:00

実現したいこと

  • 正規表現で文字列を抽出したい

前提

Turtle形式のデータを用いて、目的語のリテラルだけを抽出しようとしています。
"○○ △△ □□@ja"
という文字列に対して、□□の箇所だけを抽出する正規表現の記法を探しています

実際に用いている文字列は以下の2つです。
'<教育研協議会> <rdf-schema#label> "人間と性教育研究協議会"@ja .'
'<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .'
2つ目は文字列中に空白があります。

「2つ目の空白より後から@の直前まで」の文字列を抽出する正規表現を書きたいです。

発生している問題・エラーメッセージ

['"人間と性教育研究協議会"'] ['性教育研究協議会"']

上記のように「@」の直前までの文字列を抽出するという処理はできていると思うのですが
2つ目の文字列の「人間と」という部分が抜けてしまっています。
「人間と 性教育研究協議会」と抽出したいです。

該当のソースコード

r'([^ ]+)[.*?=@]'

試したこと

上記以外にもいくつか試したり、chatGPTなども用いながら考えたのですが、うまくいきませんでした

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ベストアンサー

「2つ目の空白より後から@の直前まで」

<教育研協議会><rdf-schema#label>も使いたいだろうから、まず3つに分割するとして、正規表現を使わず、

Python

1s = '<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .' 2x,y,z = s.split(" ",2) 3print(z) 4w = z.rsplit("@",1)[0] 5print(w)

でしょうか。

どうしても「正規表現だけで」と言うことなら、

Python

1s = '<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .' 2import re 3w = re.search(r"^[^ ]+ [^ ]+ (.*)@",s).group(1) 4print(w)

なお、@が複数あった場合に何処までにするか不明なので「最後の@まで」としています。

投稿2023/09/19 16:41

otn

総合スコア86295

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2023/09/19 16:45

re.search(r"^([^ ]+) ([^ ]+) ((.*)@.*)",s) にすれば、group(1)、(2)、(3)で各列の要素、group(4)で「第3列の@の前まで」が得られます。
guest

0

正規表現で文字列を抽出したい

単純な分割(split)でもよいかと思います。

python

1text = [ 2 '<教育研協議会> <rdf-schema#label> "人間と性教育研究協議会"@ja .', 3 '<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .', 4] 5 6for t in text: 7 m = t.split(' ', 2)[-1].split('@')[0].strip('"') 8 print(m) 9 10# 人間と性教育研究協議会 11# 人間と 性教育研究協議会

投稿2023/09/19 16:20

melian

総合スコア21118

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

"○○ △△ □□@ja"

という文字列に対して、□□の箇所だけを抽出する正規表現の記法

記述例を下記に示します。

Python

1import re 2 3data = ['<教育研協議会> <rdf-schema#label> "人間と性教育研究協議会"@ja .', 4 '<教育研協議会> <rdf-schema#label> "人間と 性教育研究協議会"@ja .'] 5 6ptn = re.compile(r'^[^ ]+ [^ ]+ (.+)@ja.*$') 7 8for s in data: 9 print(ptn.sub(r'\1', s)) 10# "人間と性教育研究協議会" 11# "人間と 性教育研究協議会"

投稿2023/09/20 15:23

little_street

総合スコア437

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問