Pandasのデータフレームを正規表現で文字列の置換

前提・実現したいこと

Pythonでアンケートで記入された大学の施設名の正規化を行なっています。
具体的には，大学以降の記入を無くしたいです．
以下のようなデータフレームに対して，回答施設名を回答施設名正規化したいです．

id	回答施設名	回答施設名正規化
1	東京大学工学部	東京大学
2	東京大学理学部	東京大学
3	東京大学　経済学部	東京大学
4	東京大学	東京大学
5	京都大学理学部	京都大学
6	東京理科大学長万部キャンパス	東京理科大学

発生している問題・エラーメッセージ

正規表現を用いると，大学の前の部分の文字列を残す方法が分かりません．

該当のソースコード

Python
1df = pd.DataFrame({"id":['1','2','3','4','5','6'],"回答施設名":['東京大学工学部','東京大学理学部','東京大学　経済学部','東京大学','京都大学理学部','東京理科大学長万部キャンパス']})
2df['回答施設名正規化'] =df['回答施設名'].replace('.*大学.*', '大学', regex=True)
3
4
5### 試したこと
6df['回答施設名正規化'] =df['回答施設名'].replace('東京大学.*', '東京大学', regex=True)
7のように大学を一つ一つ指定していくのは最終手段と考えています．
8
9# お願い
10アイデアベースでも良いので参考意見等あればお聞きしたいです！

行動規範の内容に同意します

回答3件

王道は正規表現の使用ですが、「大学」を区切り文字に見立てる方法もあります。

python
1df['回答施設名正規化']=[x.split('大学')[0]+'大学' for x in df['回答施設名']]

投稿2018/04/01 18:29

R.Shigemori

総合スコア3378

kentashx

2018/04/02 00:44

なるほど、そういう方法もあるんですね。勉強になります！

行動規範の内容に同意します

segavvyさんの回答の焼きましですが

python
1import pandas as pd
2import re
3
4df = pd.DataFrame({"id":['1','2','3','4','5','6'],"回答施設名":['東京大学工学部','東京大学理学部','東京大学　経済学部','東京大学','京都大学理学部','東京理科大学長万部キャンパス']})
5"""
6  id           回答施設名
70  1         東京大学工学部
81  2         東京大学理学部
92  3       東京大学　経済学部
103  4            東京大学
114  5         京都大学理学部
125  6  東京理科大学長万部キャンパス
13"""
14
15df["回答施設名"].replace(r'(.*大学).*', value=r"\1", inplace=True, regex=True)
16"""
17  id   回答施設名
180  1    東京大学
191  2    東京大学
202  3    東京大学
213  4    東京大学
224  5    京都大学
235  6  東京理科大学
24"""
25

投稿2018/04/01 10:45

編集2018/04/01 10:45

wakame

総合スコア1170

ベストアンサー

Pandasの環境が手元にないのでPythonの標準機能での回答になりますが、次のコードが参考になりますでしょうか。

python
1import re
2print(re.sub(r'(.*大学).*', r'\1', '東京大学工学部'))

正規表現の後方参照の仕組みを調べてみると良いかと思います。

投稿2018/04/01 02:50

segavvy

総合スコア1038

kentashx

2018/04/02 00:47

正規表現の後方参照によって、キャプチャーした文字列を置換後文字列で参照することで、実現可能なんですね！参考にコーティングしたところ実現できました！

segavvy

2018/04/02 14:15

お役に立てたようで良かったです！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pandasのデータフレームを正規表現で文字列の置換

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

関連した質問