pythonでスクレイピングしてきたデータをcsv形式でエクセルで保存しているのですが、
csvデータをpythonで読取り文字列等の変更作業、再度csv形式で保存を繰り返しています。
〜(波ダッシュ) が?になり、それを直して作業をし、また、〜(波ダッシュ) だけが?になるというのを延々と繰り返しています。直す作業を何回もしています。この作業から解放できないでしょうか?
0x8160(Shift_JIS)~
↑ ↓
0x301C(UTF-8)/U+301C
具体的には、
スクレイピングする
A.to_csv('A.csv')で保存
エクセルで開く
全体的に文字化けする。
エクセルのテキストまたはcsvからデータをインポート
元のファイルをUnicode(UTF-8)指定でデータを読み込む
文字化けが治る。
保存する。
再度エクセルで開くと〜(波ダッシュ) 0x301C(UTF-8)/U+301Cだけが → ? に文字化けする。
?を〜(波ダッシュ0x8160(Shift_JIS))に置き換えて保存する。
pd.read_csv('A.csv',encoding='shift_jis')で読見込み
〜(波ダッシュ)が読み取れる。(?を直さないと〜がpythonで読み取れない)
列や文字の編集作業をして
A.to_csv('B.csv')で保存
エクセルで開く
全体的に文字化けする
以下繰り返し。。。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。