前提・実現したいこと
Pythonでアンケートで記入された大学の施設名の正規化を行なっています。
具体的には,大学以降の記入を無くしたいです.
以下のようなデータフレームに対して,回答施設名を回答施設名正規化したいです.
df
id | 回答施設名 | 回答施設名正規化 |
---|---|---|
1 | 東京大学工学部 | 東京大学 |
2 | 東京大学理学部 | 東京大学 |
3 | 東京大学 経済学部 | 東京大学 |
4 | 東京大学 | 東京大学 |
5 | 京都大学理学部 | 京都大学 |
6 | 東京理科大学長万部キャンパス | 東京理科大学 |
発生している問題・エラーメッセージ
正規表現を用いると,大学の前の部分の文字列を残す方法が分かりません.
該当のソースコード
Python
1df = pd.DataFrame({"id":['1','2','3','4','5','6'],"回答施設名":['東京大学工学部','東京大学理学部','東京大学 経済学部','東京大学','京都大学理学部','東京理科大学長万部キャンパス']}) 2df['回答施設名正規化'] =df['回答施設名'].replace('.*大学.*', '大学', regex=True) 3 4 5### 試したこと 6df['回答施設名正規化'] =df['回答施設名'].replace('東京大学.*', '東京大学', regex=True) 7のように大学を一つ一つ指定していくのは最終手段と考えています. 8 9# お願い 10アイデアベースでも良いので参考意見等あればお聞きしたいです!

回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/04/02 00:44