質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

588閲覧

pythonで文字列の分割に例外を作る

Sonono

総合スコア85

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/11/08 15:29

text = "東京海洋大大阪大富山大宮崎大埼玉県立大"

という文字列を、

textli= ['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大']

というリストに変換したいです。「大」でsplitすると、大阪大が分割されてしまうため、これを回避したいのですがうまくかけません。教えていただけると幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

○○大のイメージで「2文字以上+大」で区切るのを基本にして、判定をミスするケースは例外として追加していくアプローチはどうでしょうか。
たとえば、このアプローチでは実在する(した)大学のうち「大阪大谷大」「呉大」は正しく抽出できないので、以下のように例外処理としてマッチングパタンを直に書いておきます。

python

1 2import re 3 4text = "大阪大谷大東京海洋大大谷大大阪河崎リハビリテーション大大阪大富山大宮崎大埼玉県立大東大阪大呉大" 5res = re.findall(r'呉大|大阪大谷大|...*?大', text) 6print(res) 7# ['大阪大谷大', '東京海洋大', '大谷大', '大阪河崎リハビリテーション大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '東大阪大', '呉大']

投稿2019/11/08 17:36

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

アドホックな方法ですけれど、例えばこんなふうにしてみたらどうでしょう。

Python

1import re 2 3text = '東京海洋大大阪大富山大宮崎大埼玉県立大国際基督教大大東文化大' 4univs = re.findall(r'[^大]+大|.{2,4}大|.', text) 5assert all(len(e)!=1 for e in univs), str(univs) 6 7print(univs)

実行結果 Wandbox

['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '国際基督教大', '大東文化大']

この方法には穴があり、例えば '大東文化国際大' みたいな大学が現れると破綻します。


そもそも完全にパースすることは人間にも不可能ですので、
できるだけシンプルな方法を試してみて、上手く行かないときに微調整する方針になりそうです。

さいあく特定の大学名だけ前以て抽出し、大学名に『大』の字は含まれないという前提で分割します。

追記

よく考えたらこういうのもアリですね。

Python

1import re 2 3text = '東京海洋大大阪大富山大宮崎大埼玉県立大国際基督教大大東文化大' 4univs = re.split(r'(?<!大大)(?<=大)', text)[:-1] 5# re.split(r'(?<!大.)(?<=大)(?=.)', text) でも良いです。 6 7print(univs)

実行結果 Wandbox

['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '国際基督教大', '大東文化大']

これなら『日本大阪大』のように、人間にもパース不可能なもの以外は上手く処理できます。

投稿2019/11/08 16:31

編集2019/11/09 02:58
LouiS0616

総合スコア35658

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Sonono

2019/11/08 23:24

とりあえず大阪大を抽出したいので、Louisさんのふたつめの方法でやってみることにしました。みなさんありがとうございました!
guest

0

大大 となっている場合に2番の大は 大の大でなく、 側の先頭藻塩だと処理してやることにしてどうでしょう?
text データの "大大" に前処理をしてみました。

g.py

python3

1import re 2 3text = "東京海洋大大阪大富山大宮崎大埼玉県立大" 4print(text) 5 6print() 7z = re.sub("大", "大,", text) 8print(z) 9zz = re.sub("大,大,", "大,大", z) 10print(zz) 11print() 12 13text2 = [x for x in zz.split(",") if x != ""] 14print(text2)

実行結果
イメージ説明

投稿2019/11/09 07:17

katoy

総合スコア22324

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問