質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.63%

UnicodeDecodeError:'cp932'が発生する!

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 10K+

monolith_91

score 18

前提・実現したいこと

私は、ニュース記事が格納されている特定のフォルダ配下の全てのテキストファイルを読み込んで、
正規表現で、とある表現と一致した箇所だけ抜き出すためのコードを書いております。

発生している問題・エラーメッセージ

その際、コードを実行すると下記のエラーが発生します。

Traceback (most recant call last):
  File "<stdin>", line 4, in <module>
UnicodeDecodeError:'cp932' codec can't decode byte 0x8f in postion 63: illegal multibyte sequence

該当のソースコード

import os
import re


#引数のdirectory配下の全てのファイルパスを取得する関数
def fild_all_files(directory):
    for root, dirs, files in os.walk(directory):
        yield root
        for file in files:
            yield os.path.join(root, file)

#ファイルパスを格納するリスト
file_lists_origin = []
file_lists = []

#'F:/リサーチ/ニュース'フォルダ配下のファイルパスだけ、file_lists_originリストに追加する。
for file in fild_all_files('F:/リサーチ/ニュース'):
    file_lists_origin.append(file)

#file_lists_originリストからテキストファイルだけ、file_listsリストに追加する。
for lists in file_lists_origin:
    if lists.find('txt') > -1:
        file_lists.append(lists)

#欲しい正規表現が入っている箇所だけリストに追加する。

simei = []
page = []

#'F:/リサーチ/ニュース'フォルダ配下のテキストファイルを次々読み込んでいき、正規表現にマッチする箇所だけ、simeiとpageリストに追加していく。

for files in file_lists:
    file = open(files)
    string = file.readline()

    while string:
        try:
            match = re.search(r'紙   名:(\w.*)', string)
            if match:
                edition = match.group(1)
                simei.append(edition)
            match = re.search(r'掲 載 頁:(\d*)', string)
            if match:
                p = match.group(1)
                page.append(p)
            string = file.readline()
        except:
            continue

試したこと

ネットで調べると、どうもcp932ってshift-jis絡みのエンコードのようで、ネットで見つけた下記解決法を試して駄目でした。

・次のコードをプログラムの最初に書く。
import io, sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,
encoding=sys.stdout.encoding, 
errors='backslashreplace', 
line_buffering=sys.stdout.line_buffering)

・ファイルを読み込むときに、下記に変える。
file = open(files) ⇒ file = open(files).encode('utf-8')

・正規表現のパターン検索で、下記に変える。
match = re.search(r'紙   名:(\w.*)'.encode('utf-8'), string) ⇒ match = re.search(r'紙   名:(\w.*)'.encode('utf-8'), string)

補足情報(言語/FW/ツール等のバージョンなど)

・なお、私が読み込んでいるテキストファイルは次のような形式です。ここから「紙名」と「掲載ページ」を引っ張りたいのです。
掲載年月日:yymmdd
紙   名:掲載メディア
掲 載 頁:掲載ページ
表・写・絵:有り・無し
【記事見出し】
ニュースヘッドライン。 
【記事本文】
ニュース本文
-----------------------------------------------------Page 1-----------------------------------------------------
同様のフォーマットが続いていく…。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • quickquip

    2017/07/06 08:40

    コードは前後の行に ``` に置くなどしてインデントが保存されるようにしてください。エラーはメッセージだけじゃなくて、出ている箇所がわかるように書いてください。

    キャンセル

  • quickquip

    2017/07/06 08:42

    ソースコードと読み込んでいるファイルが、どんな文字コード(エンコーディング)で保存されているかも必要です。

    キャンセル

  • monolith_91

    2017/07/06 13:12

    申し訳ありません。ソースのみ急ぎ直しました。出先なんで詳細なエラーについては帰宅してから更新します。また意識してなかったのでテキストファイルのエンコーディングも不明です。済みません…。

    キャンセル

  • monolith_91

    2017/07/06 22:08

    エラー文も直しました。エラー発生個所は、最下部のループ「for files in file_lists:」からの部分で発生します。また文字コードは「Unicode」でした。

    キャンセル

回答 1

checkベストアンサー

+1

file = open(files)

file = open(files, encoding="utf8")

に変えて試してみて下さい。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/07/07 09:12

    ファイルをどこかにアップ頂く事は可能ですか?

    キャンセル

  • 2017/07/07 09:29

    BOMが「FF FE」ならUTF-16LEの可能性がありますね。

    キャンセル

  • 2017/07/09 15:30

    返信が遅くなりまして申し訳ありません。nkfを使ってtextのにエンコーディングをウutf-8に一括で変更してから、
    open(files, encoding="utf8")
    で全て問題なくエラーが発生することなく開けるようになりました。
    どうもありがとうございました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.63%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る