text = "東京海洋大大阪大富山大宮崎大埼玉県立大"
という文字列を、
textli= ['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大']
というリストに変換したいです。「大」でsplitすると、大阪大が分割されてしまうため、これを回避したいのですがうまくかけません。教えていただけると幸いです。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答3件
0
○○大のイメージで「2文字以上+大」で区切るのを基本にして、判定をミスするケースは例外として追加していくアプローチはどうでしょうか。
たとえば、このアプローチでは実在する(した)大学のうち「大阪大谷大」「呉大」は正しく抽出できないので、以下のように例外処理としてマッチングパタンを直に書いておきます。
python
1 2import re 3 4text = "大阪大谷大東京海洋大大谷大大阪河崎リハビリテーション大大阪大富山大宮崎大埼玉県立大東大阪大呉大" 5res = re.findall(r'呉大|大阪大谷大|...*?大', text) 6print(res) 7# ['大阪大谷大', '東京海洋大', '大谷大', '大阪河崎リハビリテーション大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '東大阪大', '呉大']
投稿2019/11/08 17:36
退会済みユーザー
総合スコア0
0
ベストアンサー
アドホックな方法ですけれど、例えばこんなふうにしてみたらどうでしょう。
Python
1import re 2 3text = '東京海洋大大阪大富山大宮崎大埼玉県立大国際基督教大大東文化大' 4univs = re.findall(r'[^大]+大|.{2,4}大|.', text) 5assert all(len(e)!=1 for e in univs), str(univs) 6 7print(univs)
実行結果 Wandbox
['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '国際基督教大', '大東文化大']
この方法には穴があり、例えば '大東文化国際大' みたいな大学が現れると破綻します。
そもそも完全にパースすることは人間にも不可能ですので、
できるだけシンプルな方法を試してみて、上手く行かないときに微調整する方針になりそうです。
さいあく特定の大学名だけ前以て抽出し、大学名に『大』の字は含まれないという前提で分割します。
追記
よく考えたらこういうのもアリですね。
Python
1import re 2 3text = '東京海洋大大阪大富山大宮崎大埼玉県立大国際基督教大大東文化大' 4univs = re.split(r'(?<!大大)(?<=大)', text)[:-1] 5# re.split(r'(?<!大.)(?<=大)(?=.)', text) でも良いです。 6 7print(univs)
実行結果 Wandbox
['東京海洋大', '大阪大', '富山大', '宮崎大', '埼玉県立大', '国際基督教大', '大東文化大']
これなら『日本大阪大』のように、人間にもパース不可能なもの以外は上手く処理できます。
投稿2019/11/08 16:31
編集2019/11/09 02:58総合スコア35668
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
0
大大 となっている場合に2番の大は 大の大でなく、 側の先頭藻塩だと処理してやることにしてどうでしょう?
text データの "大大" に前処理をしてみました。
g.py
python3
1import re 2 3text = "東京海洋大大阪大富山大宮崎大埼玉県立大" 4print(text) 5 6print() 7z = re.sub("大", "大,", text) 8print(z) 9zz = re.sub("大,大,", "大,大", z) 10print(zz) 11print() 12 13text2 = [x for x in zz.split(",") if x != ""] 14print(text2)
投稿2019/11/09 07:17
総合スコア22324
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。