[Google Colab]MeCabでのUnicodeDecodeError

GoogleColabにて以下のコードを実行するとUnicodeDecodeErrorが発生しました。
解決方法などをご教授いただければありがたいです。

Python
1!apt install aptitude
2!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
3!pip install mecab-python3==0.7
4
5
6f = open('/content/検索履歴.txt',encoding='UTF-8-SIG')
7text = f.read()
8f.close()
9
10import MeCab
11m = MeCab.Tagger ('-Ochasen')
12
13node = m.parseToNode(text)
14words=[]
15while node:
16    words.append(node.surface)
17    node = node.next

「検索履歴.txt」の文字コードについては以下で確認済みです。

import chardet
with open('検索履歴.txt', 'rb') as f:
    print('検索履歴.txt')
    print(chardet.detect(f.read()))

#結果
検索履歴.txt
{'encoding': 'UTF-8-SIG', 'confidence': 1.0, 'language': ''}

エラー内容はこちらです。

UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-38-23e2e29d0c41> in <module>()
     14 words=[]
     15 while node:
---> 16     words.append(node.surface)
     17     node = node.next

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 0: invalid start byte

行動規範の内容に同意します

回答2件

ベストアンサー

こんばんは。

問題文読ませていただきました。

こちらあたりの記事を確認すると、

・https://www.koichihori.tech/mecab_unicode_jp.html
・https://qiita.com/kasajei/items/0805b433f363f1dba785

Python
1m = MeCab.Tagger('-Ochasen')
2# 追加
3m.parse("")

とするとうまくいきそうです。

ご確認のほど、よろしくお願いいたします。????‍♂️

投稿2021/05/28 10:49

退会済みユーザー

総合スコア0

52kkp

2021/05/29 05:57

ご回答ありがとうございます！以前もお世話になりました。追加すると上手く動作しました。色々検索してみましたが、こんな的確な答えのページにたどり着けなかった私の検索力が低いのも問題ですね･･･

退会済みユーザー

2021/05/29 06:16

いえいえ。うまくいってよかったです。検索力は時間をかけていくと慣れてくると思いますので、焦らずじっくりと経験を積んでいきましょう！ Enjoy!!!

行動規範の内容に同意します

わざわざ0.7と古いバージョンを指定しているので、古いバグが残ったままなのです。
なぜ0.7を指定したんでしょう?

アドホックに解決するなら、TeratailでparseToNode UnicodeDecodeErrorと検索して、トップに出てくる質問からたどった
https://qiita.com/kasajei/items/0805b433f363f1dba785
の通りに、parseToNodeの前に

python
1mecab.parse("")

を1回実行しておけばエラーはなくなるはずです。

投稿2021/05/28 05:25

編集2021/05/28 05:38

quickquip

総合スコア11235

52kkp

2021/05/29 05:54

ご回答ありがとうございます！追加してみるとうまく動作しました。参考にした方のコードでは旧バージョンを使用していたためです。最新Verにして確認もしてみます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

[Google Colab]MeCabでのUnicodeDecodeError

関連した質問