前提・実現したいこと
pythonで地名に関するデータを編集をしています。
データとしては、下記のような形です。
Tokyo-to, Japan
北海道 小樽市
Shibuya-ku, Tokyo
東京 新宿区
長野 松本市
Shibuya-ku, Tokyo
JRA 東京競馬場
Joetsu-shi, Niigata
JR三ノ宮駅
Shinto-mura, Gunma
JR 東海三島駅・新幹線
Chiyoda-ku, Tokyo
Aomori-shi, Aomori
ここから、JR三宮駅、JRA 東京競馬場といった、英語と日本語が合体した単語だけを除きたいのですが
どうしたらいいのでしょうか?
発生している問題・エラーメッセージ
日本語だけの地名は省くことができ、以下のようなデータを取るとこまではできました。
Tokyo-to, Japan Shibuya-ku, Tokyo Shibuya-ku, Tokyo JRA 東京競馬場 Joetsu-shi, Niigata JR三ノ宮駅 Shinto-mura, Gunma JR 東海三島駅・新幹線 Chiyoda-ku, Tokyo Aomori-shi, Aomori
該当のソースコード
python
1import re 2 3for i in res["hits"]["hits"]: 4 match = re.match('[a-zA-Z]', i["_source"]["place"]["full_name"]) 5 if match != None: 6 print(i["_source"]["place"]["full_name"]) 7 8
i["_source"]["place"]["full_name"]に元のデータが入ってます
試したこと
re.search('[ぁ-ん ァ-ン 一-龥]', i["_source"]["place"]["full_name"])をつかって、if match != None:の分岐後、日本語を含む単語であれば、その地名を省くように書いたのですが省かれませんでした
補足情報(FW/ツールのバージョンなど)
python3 正規表現
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/01/25 08:25