🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Q&A

解決済

4回答

4420閲覧

【正規表現】鍵括弧内を無視した句点で区切りたい

退会済みユーザー

退会済みユーザー

総合スコア0

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

0グッド

0クリップ

投稿2019/11/09 09:06

編集2019/11/09 11:35

文字列を句点(。)ごとに区切りたいです。

ただ、鍵括弧(「」、『』)で括られた中の句点にはマッチしてほしくないです。

どのような正規表現であれば、上記のようなことができるのかわかりません。

正しい正規表現を教えてください。よろしくお願いします。

サンプルは以下のとおりです。

分割前 あ。「いい。」いい。ううう「ううう。」ううう。ええええ。「ええええ。」ええええ。おおおおお「おおおおお」おおおおお。「かか。かかか。」かかか。「「きき。」ききき。」きき。 くく「くく『くく。』くく。」くく。けけ「けけ『けけ』けけ」けけ。ここ「ここ『ここ。ここ』」ここ。『ささ。ささ。』ささ。
分割後 あ。 「いい。」いい。 ううう「ううう。」ううう。 ええええ。 「ええええ。」ええええ。 おおおおお「おおおおお」おおおおお。 「かか。かかか。」かかか。 「「きき。」ききき。」きき。 くく「くく『くく。』くく。」くく。 けけ「けけ『けけ』けけ」けけ。 ここ「ここ『ここ。ここ』」ここ。 『ささ。ささ。』ささ。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Zuishin

2019/11/09 11:17 編集

言語は何ですか? タグは Python 3.x になっていますが、それで間違いありませんか?
Zuishin

2019/11/09 11:16

それと分割前と分割後のサンプルを三つずつ、計六つ作ってください。
guest

回答4

0

正規表現一発では難しいので、他の方法(問題を分解して少しずつ行う)を考えたほうがいいです。

投稿2019/11/09 11:08

otn

総合スコア85882

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

文字列を句点(。)ごとに区切りたいです。
ただ、鍵括弧(「」、『』)で括られた中の句点にはマッチしてほしくないです。

「括弧で括られた文字列」と「括弧外の文字列」を別々にマッチさせた上で、句読点で分割(split)して下さい。
入れ子の括弧が存在しなければ、下記実装で事足ります。

JavaScript

1'use strict'; 2const sample = string => string.match(/「[^」]*」|『[^』]*』|[^「」『』]+/g).reduce((results, current) => results.concat(['「','『'].includes(current[0]) ? current : current.split(//)), []); 3console.log(JSON.stringify(sample('あ。い「う。え」お『か。き。く』け。こ。'))); // ["あ","い","「う。え」","お","『か。き。く』","け","こ",""]

入れ子の括弧が存在するのなら、「括弧で括られた文字列」を繰り返し処理で複数回マッチにする必要があります。
(下記はJavaScriptですが、アルゴリズムは他言語にも応用できるでしょう)

Re: dad さん

投稿2019/11/09 11:59

think49

総合スコア18189

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

正規表現で回答しましたが、例がカッコのネストがあるなど想定外だったので撤回します。

これは正規表現ではできません。構文解析の出番です。

追記

例文は正しく分割できます。

Python

1import re 2 3input = 'あ。「いい。」いい。ううう「ううう。」ううう。ええええ。「ええええ。」ええええ。おおおおお「おおおおお」おおおおお。「かか。かかか。」かかか。「「きき。」ききき。」きき。' 4input2 = 'くく「くく『くく。』くく。」くく。けけ「けけ『けけ』けけ」けけ。ここ「ここ『ここ。ここ』」ここ。『ささ。ささ。』ささ。' 5 6def splitByPeriod(s): 7 start = 0 8 braceCount = 0 9 for i in range(len(s)): 10 if s[i] == '「' or s[i] == '『': 11 braceCount += 1 12 elif s[i] == '」' or s[i] == '』': 13 braceCount -= 1 14 elif s[i] == '。' and braceCount <= 0: 15 yield s[start:i + 1] 16 start = i + 1 17 18for phrase in splitByPeriod(input): 19 print(phrase) 20 21for phrase in splitByPeriod(input2): 22 print(phrase)

投稿2019/11/09 11:31

編集2019/11/09 11:57
Zuishin

総合スコア28669

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

私も同じことを、正規表現だけで実現したいと思ったのですが、自分のスキルではどうすればいいかよくわかりませんでした。とくに、入れ子(ネスト)になった場合どうすればいいかがサッパリ思いつきません。
ただ、自分の場合、解析の対象となる文章(12万件ほどの新聞記事)を精査したところ、入れ子に対応していない正規表現でも実際にはほとんど問題が発生しませんでした。
Rでやったのですが、以下のような正規表現にマッチする文字列を順に抜き出して配列に格納するという処理を行いました。実際は、?や!も区切り文字に加えましたが。念押しですが、これでは入れ子には対応できません。

R

1((「.*?」)|([^]))+|[^]+

私の場合は、コーパスの統計的な処理をしたかっただけで、入れ子のせいできちんと抜けてないケースが多少含まれていても誤差として許容できるので、この簡単な正規表現で対処しました。タスクによってはそれで済む場合も多いと思うので、一応こちらに書き込んでおこうと思いました。

以下のブログにも書きました。
https://blog.statsbeginner.net/entry/2022/12/17/231456

投稿2022/12/18 08:45

statsbeginner

総合スコア2

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問