質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python 3.x

    9841questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Windows 10

    1242questions

    Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

MeCabで形態素解析をしたい。UnicodeDecodeError を解消したい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 484

giro1975

score 22

環境
windows10
コマンドライン
Python 3.6.5

import sys
import os
from glob import glob
from collections import Counter
import MeCab
def main():
    """
    コマンドライン引数で指定したディレクトリ内のファイルを読み込んで、頻出単語を表示する
    """
    input_dir = sys.argv[1] #コマンドラインの第1引数で、WikiExtractorの出力先のディレクトリを指定する。

    tagger = MeCab.Tagger('')
    tagger.parse('') #parseToNode()の不具合を回避するために必要。
    # 単語の頻度を格納するCounterオブジェクトを作成する。
    # Counterクラスはdictを継承しており、値としてキーの出現回数を保持する。
    frequency = Counter()
    count_proccessed = 0

    #glob()でワイルドカードにマッチするファイルのリストを取得し、マッチしたすべてのファイルを処理する。
    for path in glob(os.path.join(input_dir,'*','wiki_*')):
        print('Processing{0}...'.format(path), file=sys.stderr)

        with open(path) as file: #ファイルを開く
            for content in iter_docs(file): #ファイル内の全記事について反復処理する。
                tokens = get_tokens(tagger,content)  #ページから名刺のリストを取得する。
                # Counterのupdate()メソッドにリストなどの反復可能オブジェクトを指定すると、
                # リストに含まれる値の出現回数を一度に増やせる。
                frequency.update(tokens)

                # 10,000件ごとに進捗を表示。
                count_proccessed += 1
                if count_proccessed % 10000 == 0:
                    print('{0}documents were processed.'.format(count_proccessed),file=sys.stderr)

    # 全記事の処理が完了したら、上位30件の名刺と出現回数を表示する。
    for token, count in frequency.most_common(30):
        print(token,count)

def iter_docs(file):
    """
    ファイルオブジェクトを読み込んで、記事の中身(開始タグ<doc ...>と終了タグ</doc>の間のテキスト)を順に返すジェネレーター関数。
    """

    for line in file:
        if line.startswith('<doc '):
            buffer = [] #開始タグが見つかったらバッファを初期化する。
        elif line.startswith('</doc>'):
            # 終了タグを見つかったらバッファの中身を結合してyieldする。
            content = ''.join(buffer)
            yield content
        else:
            buffer.append(line) #開始タグ・終了タグ以外の行はバッファに追加する。

def get_tokens(tagger,content):
    """
    文書内に出現した名刺のリストを取得する関数。
    """
    tokens = [] #この記事で出現した名刺を格納するリスト。

    node = tagger.parseToNode(content)
    while node:
        # node.featureはカンマで区切られた文字列なので、split()で分割して
        # 最初の2項目をcategoryとsub_categoryに代入する。
        category,sub_category = node.feature.split(',')[:2]
        #固定名刺または一般名詞の場合のみtokensに追加する。
        if category == '名刺' and sub_category in ('固有名詞','一般'):
            tokens.append(node.surface)
        node = node.next

    return tokes

if __name__ == '__main__':
    main()

これをコマンドラインで

python word_frequency.py articles


と処理してarticles の形態素解析(頻出単語を抜き出す)を行いたいです。

しかし
UnicodeDecodeError: 'cp932' codec can't decode byte 0x89 in position 80: illegal multibyte sequence

とエラー終了してしまいます。
articles

https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles1.xml-p1p106175.bz2からダウンロードしたものをコマンドラインにて

python WikiExtractor.py --no-templates -o articles -b 100M jawiki-latest-pages-articles1.xml-p1p106175.bz2

 で処理して生成したものです。

WikiExtractor.pyからダウンロードした、Wikipediaのデータセットから文章を抜き出すためのスクリプトになります。

UnicodeDecodeErrorを解消したいです。よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • quiqui

    2018/09/23 14:11 編集

    バックトレースが載せられていないので一般的な回答以外できない状態なのだと思います。

    キャンセル

  • giro1975

    2018/09/23 16:19

    ありがとうございます。今回バックトレースだと思われるものがとても長かったで、末尾のエラーコードだけ記入しました。次回からバックトレースも記入できるように努力します。ありがとうございます。

    キャンセル

回答 1

checkベストアンサー

+2

UnicodeDecodeError は大抵文字コードの誤りが原因です。今回、UnicodeDecodeError: 'cp932' codec can't decode と出ているので、ファイルを CP932 で開いたが、CP932 では存在しない文字が出てきてエラーになったようです。

ファイルを開くときには文字コードを指定してあげてください。おそらく UTF-8 か何かだと思いますが、その場合は以下のように指定します。

        with open(path, encoding='utf-8') as file: #ファイルを開く
            for content in iter_docs(file): #ファイル内の全記事について反復処理する。

↑ encoding='utf-8' の部分です。

文字コードは日本語(マルチバイト言語)を扱う我々には避けて通れない問題です。明示的に指定する習慣を付けておくとトラブルが防げるので、ぜひ意識してみてください。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/09/23 16:20

    ありがとうございます。出来ました!
    明示的に指定する習慣を意識していきます。
    これからもよろしくお願いします。

    キャンセル

同じタグがついた質問を見る

  • Python 3.x

    9841questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Windows 10

    1242questions

    Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。