Python2.7での日本語テキスト処理

Python2.7で以下のプログラムを使って日本語テキストを分割し、ファイル出力しようと思ったのですが、

Python
1# -*- coding: utf-8 -*-
2import os
3import sys
4import codecs
5sys.stdout=codecs.getwriter('utf-8')(sys.stdout)
6
7files=os.listdir('./')
8files.pop(0)
9files.pop(0)
10
11i=0
12for file in files:
13	if i%2==1:
14		filename=file.replace('.txt','')
15		f=codecs.open(file,'r','sjis')
16		anum=0
17
18		source=[]
19		for line in f:
20			line=line.encode('utf-8')
21			source.append(line.decode('utf-8'))
22		f.close()
23
24		name=str(anum)+'.txt'
25		f=open(name,'w')
26		for line in source:
27			if u'＼ＩＤ＼' in line:
28				f.close()
29				anum+=1
30				name=str(filename)+'/'+str(anum)+'.txt'
31				f=codecs.open(name,'w','sjis')
32			f.write(line.decode('utf-8'))
33		f.close()
34	i+=1

何度かはうまく行ったのですが、最近は以下のようなエラーが出てうまく動きません。

Traceback (most recent call last):
  File "bunkatsu.txt", line 19, in <module>
    for line in f:
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/codecs.py", line 687, in next
    return self.reader.next()
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/codecs.py", line 618, in next
    line = self.readline()
UnicodeDecodeError: 'shift_jis' codec can't decode bytes in position 32-33: illegal multibyte sequence

色々なサイトを見て自分でも調べましたが、どうしても解決できないため質問させていただきました。
どこに問題があって、どうすれば解決できるのか、ご教授いただければ幸いです。

行動規範の内容に同意します

回答1件

python
1f=codecs.open(file,'r','sjis')

を

python
1f=codecs.open(file,'r','sjis', errors='replace')

とすればとりあえずエラーは出なくなります。ただし上手くデコードできなかった文字列が?になるので、それが困るのであればどの文字が?になるか確認してなぜうまくデコードできないのかを探ることになります。

投稿2017/10/25 03:12

YouheiSakurai

総合スコア6142

TakumiYamada

2017/10/25 03:22

度々すみません、ご回答いただいた部分は修正したのですが、今度は File "bunkatsu.txt", line 32, in <module> f.write(line.decode('utf-8')) File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-11: ordinal not in range(128) というエラーが出て、やはりうまく行きません・・・

行動規範の内容に同意します