質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

置換

置換とは文字列中の特定の文字に対して、別の文字列に置き換えることを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1492閲覧

Pythonでマッチする部分を重複することなく複数個抽出したい

civillaw

総合スコア4

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

置換

置換とは文字列中の特定の文字に対して、別の文字列に置き換えることを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/08/05 02:02

前提・実現したいこと

同一の条件にマッチする部分を複数個取り出し、その後置換したい。

発生している問題・エラーメッセージ

半角括弧()で囲まれた部分を操作したいのですが、重複が生じているためか以下のような文字列で()で囲まれた部分を複数個取り出すことができません。
550年 (東魏)が滅亡して(北斉)が建国する:北朝 556年 西魏が滅亡して(北周)が建国する:北朝

この処理が上手くいかないためか、改行を含んで()で囲まれた部分を順次(1) (2) (3)…とすることも
できません。

該当のソースコード

Python import re str = '''502年 斉が滅亡して梁を建国:南朝 534年 (北魏)が東魏、西魏に分裂する:北朝 550年 (東魏)が滅亡して(北斉)が建国する:北朝 556年 西魏が滅亡して(北周)が建国する:北朝 557年 梁が滅亡して(陳)が建国する:南朝 577年 北周が北斉を滅ぼす 581年 (北周)の楊堅が隋を建国する 589年 隋は南朝の(陳)を滅ぼし中国を統一する ''' str_list = str.splitlines() s_regex = re.compile("(.+)") a_list = [] #解答を入れるリストの下準備 for s in str_list: result = s_regex.findall(s) a_list.append(result) print(a_list) print('\n') brank = [] #穴埋め問題を入れるリスト i = 0 #()に番号を振る for s in str_list: f = s_regex.findall(s) if f is not None: i = i + 1 list = s_regex.sub('({0})'.format(i),s) brank.append(list) for s in brank: print(s) #以下は実行結果 [[], ['(北魏)'], ['(東魏)が滅亡して(北斉)が建国する:北朝\u3000556年\u3000西魏が滅亡して(北周)'], ['(陳)'], [], ['(北周)の楊堅が隋を建国する\u3000589年\u3000隋は南朝の(陳)']] 502年 斉が滅亡して梁を建国:南朝 534年 (2)が東魏、西魏に分裂する:北朝 550年 (3)が建国する:北朝 557年 梁が滅亡して(4)が建国する:南朝 577年 北周が北斉を滅ぼす 581年 (6)を滅ぼし中国を統一する

試したこと

[[], ['(北魏)'], ['(東魏)','(北斉)','(北周)'], ['(陳)'], [], ['(北周)','(陳)']]
としたいので、searchやgroup、肯定的先読みなど試しましたが上手くいきません。何かよい方法はないのでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

次のどちらかです。

最短パタンでマッチさせる。

python

1s_regex = re.compile(r"(.+?)")

カッコを含まないパタンでマッチさせる。

python

1s_regex = re.compile(r"([^()]+)")

バックスラッシュを含む正規表現を作るときはrつきのリテラルで書く方がおすすめです。
また、strを変数名に使うのは、pythonのstr型と被るので、混乱したり、str型に変換したいときなどに困るのでやめた方がいいです。

投稿2021/08/05 02:13

編集2021/08/05 02:23
bsdfan

総合スコア4567

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

civillaw

2021/08/05 12:06

こんな単純なパタンでよかったのですか。勉強不足を実感しました。ありがとうございます。 また、文法上の注意までご指摘いただきありがとうございます。たいへん励みになりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問