GoogleColabにて以下のコードを実行するとUnicodeDecodeErrorが発生しました。
解決方法などをご教授いただければありがたいです。
Python
1!apt install aptitude 2!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y 3!pip install mecab-python3==0.7 4 5 6f = open('/content/検索履歴.txt',encoding='UTF-8-SIG') 7text = f.read() 8f.close() 9 10import MeCab 11m = MeCab.Tagger ('-Ochasen') 12 13node = m.parseToNode(text) 14words=[] 15while node: 16 words.append(node.surface) 17 node = node.next
「検索履歴.txt」の文字コードについては以下で確認済みです。
import chardet with open('検索履歴.txt', 'rb') as f: print('検索履歴.txt') print(chardet.detect(f.read())) #結果 検索履歴.txt {'encoding': 'UTF-8-SIG', 'confidence': 1.0, 'language': ''}
エラー内容はこちらです。
UnicodeDecodeError Traceback (most recent call last) <ipython-input-38-23e2e29d0c41> in <module>() 14 words=[] 15 while node: ---> 16 words.append(node.surface) 17 node = node.next UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 0: invalid start byte
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/05/29 05:57
退会済みユーザー
2021/05/29 06:16