###前提・実現したいこと
自然言語処理のプログラムをpythonで書いています。エラーを消したいです。
###発生している問題・エラーメッセージ
エラーは文字コード関連です。ちなみにこのエラーは何度も実行しているとたまにエラーが出ないでプログラムが動くことがあります。
line 115, in tokenize yield node.surface.lower() UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 1-2: invalid continuation byte
###該当のソースコード
python
1def tokenize(self,text):#形態素解析して名詞だけ取り出す 2 3 sentence = str(text) 4 node = self.mecab.parseToNode(sentence) 5 6 while node: 7 if node.feature.split(',')[0] == '名詞': 8 yield node.surface.lower() 9 node = node.next
###試したこと
エンコードやデコードを試しましたが無理でした。それに、何回か実行すれば通ってしまうことがあるのが不思議です。
###補足情報(言語/FW/ツール等のバージョンなど)
使っているバージョンはpython3.6.1です。
OSはMacのSierraです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/04/23 18:45