前提・実現したいこと
プログラムで、決算短信などの情報をパースしてデータフレームにする処理を実施しています。
ただ、元のデータの記載があまりよろしくなく、区切り文字がなかったり、一見して規則性がなかったり
しています。
今回ご質問したいのは、下記例のように、区切り文字がなく、数字と漢字などが混在しているものを
うまく分離して格納したいと考えています。
区切り文字がある箇所はstr.splitで分離できるのですが、漢字と数字をどうやって分離抽出すればよいかが調べてもわかりませんでした。
お手数をおかけいたしますがご教示いただけますと幸甚です。
(例)
'国内12(34)', '海外外食56(-78)',...(20XX.X)
→ 末尾の20xx.xは除いて、それ以外の情報を、名称、値、比率で分離してdfに格納したい。
seg_df:
seg_name | seg_val | seg_rate |
---|---|---|
国内 | 12 | 34 |
海外外食 | 56 | -78 |
### 発生している問題・エラーメッセージ | ||
上記例のような場合、うまくパース出来ない。 |
試したこと
stringのメソッドについて調べた。
補足情報(FW/ツールのバージョンなど)
python 3.8.7
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/07/17 02:28