Python3.7、エディターはjupiter notebookで自然言語解析の前処理を行っています。
そこでpickleを使って正規表現処理をした後の文章データを保存したいのですが、
保存処理して出来たファイルの中身が以下のようになり、うまく保存されないです。
実行した際にエラーは出ず、きちんと正規化された文章データの中身がエディタ内で表示されてます。
問題は文字コードだと思うのですが、今回のようにバイナリーデータ(wb)で保存したい場合は,
openの引数にencoding=utf-8をいれる処理は出来なかったと認識しています。
その他にpickleでデータを保存する際に上記エラーを解決する方法に関してアドバイスを頂きたいです。
import re import pickle wagahai = re.sub("《[^》]+》", "", wagahai_original) wagahai = re.sub("[[^》]+]", "", wagahai) wagahai = re.sub("[| 「」\n]", "", wagahai) seperator = "。" wagahai_list = wagahai.split(seperator) wagahai_list.pop() wagahai_list = [x+seperator for x in wagahai_list] print(wagahai_list) with open("wagahai_list.pickle", mode="wb") as f: pickle.dump(wagahai_list, f)
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/02/15 04:43
2020/02/15 04:51