前提・実現したいこと
pythonのpandasを使用してDataFrameを作りました。
データ分析をするために単語を正規化したいのですが、良い方法が見つからないのでご教授頂きたいです。
使用データ
購買履歴
利用日 | 利用先 | 支払総額 |
---|---|---|
2019-10-12 | paypay*ファミリーマート | 120 |
2019-10-10 | linepay*ファミリーマート | 130 |
2019-10-9 | オリガミ*ファミリーマート | 502 |
2019-10-3 | ファミリーマート | 400 |
2019-10-1 | フアミリーマート | 320 |
2019-9-10 | ファミリーマートシンジュクヒガシ | 100 |
2019-9-10 | agoda | 10000 |
2019-9-10 | アゴダ | 3000 |
これを全て「ファミリーマート」や「agoda」に置換したいです。
これが得たい結果です。
利用日 | 利用先 | 支払総額 |
---|---|---|
2019-10-12 | ファミリーマート | 120 |
2019-10-10 | ファミリーマート | 130 |
2019-10-9 | ファミリーマート | 502 |
2019-10-3 | ファミリーマート | 400 |
2019-10-1 | ファミリーマート | 320 |
2019-9-10 | ファミリーマート | 100 |
2019-9-10 | agoda | 10000 |
2019-9-10 | agoda | 3000 |
使用環境はmac OS Catalina, python3.7です。よろしくお願いします。
試したこと
replaceやcontainsなどを使って取り組もうとしましたが思いつきませんでした。
またわかち切りや正規表現をする必要があるのかもしれないと考えましたが、良い方法が思いつきません。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。