pythonで文字列の分割に例外を作る

text = "東京海洋大大阪大富山大宮崎大埼玉県立大"

という文字列を、

textli= ['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大']

というリストに変換したいです。「大」でsplitすると、大阪大が分割されてしまうため、これを回避したいのですがうまくかけません。教えていただけると幸いです。

行動規範の内容に同意します

回答3件

○○大のイメージで「2文字以上+大」で区切るのを基本にして、判定をミスするケースは例外として追加していくアプローチはどうでしょうか。
たとえば、このアプローチでは実在する(した)大学のうち「大阪大谷大」「呉大」は正しく抽出できないので、以下のように例外処理としてマッチングパタンを直に書いておきます。

python
1
2import re
3
4text = "大阪大谷大東京海洋大大谷大大阪河崎リハビリテーション大大阪大富山大宮崎大埼玉県立大東大阪大呉大"
5res = re.findall(r'呉大|大阪大谷大|...*?大', text)
6print(res)
7# ['大阪大谷大', '東京海洋大', '大谷大', '大阪河崎リハビリテーション大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '東大阪大', '呉大']

投稿2019/11/08 17:36

退会済みユーザー

総合スコア0

ベストアンサー

アドホックな方法ですけれど、例えばこんなふうにしてみたらどうでしょう。

Python
1import re
2
3text = '東京海洋大大阪大富山大宮崎大埼玉県立大国際基督教大大東文化大'
4univs = re.findall(r'[^大]+大|.{2,4}大|.', text)
5assert all(len(e)!=1 for e in univs), str(univs)
6
7print(univs)

実行結果 Wandbox

['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '国際基督教大', '大東文化大']

この方法には穴があり、例えば '大東文化国際大' みたいな大学が現れると破綻します。

そもそも完全にパースすることは人間にも不可能ですので、
できるだけシンプルな方法を試してみて、上手く行かないときに微調整する方針になりそうです。

さいあく特定の大学名だけ前以て抽出し、大学名に『大』の字は含まれないという前提で分割します。

追記

よく考えたらこういうのもアリですね。

Python
1import re
2
3text = '東京海洋大大阪大富山大宮崎大埼玉県立大国際基督教大大東文化大'
4univs = re.split(r'(?<!大大)(?<=大)', text)[:-1]
5# re.split(r'(?<!大.)(?<=大)(?=.)', text) でも良いです。
6
7print(univs)

実行結果 Wandbox

['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '国際基督教大', '大東文化大']

これなら『日本大阪大』のように、人間にもパース不可能なもの以外は上手く処理できます。

投稿2019/11/08 16:31

編集2019/11/09 02:58

LouiS0616

総合スコア35668

Sonono

2019/11/08 23:24

とりあえず大阪大を抽出したいので、Louisさんのふたつめの方法でやってみることにしました。みなさんありがとうございました！

行動規範の内容に同意します

大大となっている場合に２番の大は 大の大でなく、 側の先頭藻塩だと処理してやることにしてどうでしょう？
text データの "大大" に前処理をしてみました。

g.py

python3
1import re
2
3text = "東京海洋大大阪大富山大宮崎大埼玉県立大"
4print(text)
5
6print()
7z = re.sub("大", "大,", text)
8print(z)
9zz = re.sub("大,大,", "大,大", z)
10print(zz)
11print()
12
13text2 = [x for x in zz.split(",") if x != ""]
14print(text2)