前提・実現したいこと
住所の文字列の文末にある不要な文字列を削除したいです。
例 (住所はダミーです)
京都府京都市右京区XXX1-1-1 【本社】本社です
=> 抽出結果 京都府京都市右京区XXX1-1-1
京都府京都市右京区XXX1-1-1京都ビル1F ※詳しくはこちら
=> 抽出結果 京都府京都市右京区XXX1-1-1京都ビル1F
京都府京都市右京区XXX1-1-1京都ビル3階 京都の住所です
=> 抽出結果 京都府京都市右京区XXX1-1-1京都ビル3階
上記のように元データから不要な文字列を削除して、きれいな住所になるようにしたいです。
発生している問題・エラーメッセージ
住所の後に記載される文字列に様々なパターンがあり、きれいに削除することが難しい状況です。
すべての不要文字列のパターンに適応した正規表現を書くのは現実的ではないため、
住所が
・F
・階
・数字
で終わるとして、それ以降の不要文字列を削除するコードを書いてみています。
Python
1# addressは例です 2address1 = '京都府京都市右京区京都駅ビル3-5-6 10F 新卒歓迎・未経験者歓迎' 3address2 = '東京都港区TBSビル1-2-3 25階 打ち合わせ室' 4address3 = '北海道札幌市中央区1-100 駐車場なし、近くのコインパーキングをご利用ください' 5# ここでF、階、数字を判定する 6character = 7if character == "F" or character == "階": 8# Fまたは階以降を取り除く 9elif character not in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]: 10# 数字以降を取り除く 11 12# 結果 13# address1 = '京都府京都市右京区京都駅ビル3-5-6 10F' 14# address2 = '東京都港区TBSビル1-2-3 25階' 15# address3 = '北海道札幌市中央区1-100'
Fの位置を取得することができない、または、別のFに反応してしまうなどして適切なコードが見つからずにいます。
上記の問題を解消し、きれいな住所文字列のみを抽出できる方法を教えていただきたいです。
よろしくお願いいたします
補足情報(FW/ツールのバージョンなど)
Pycharm
python 3.8.0
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/09/17 13:35
2021/09/17 23:47