質問編集履歴
3
エラー内容更新
title
CHANGED
File without changes
|
body
CHANGED
@@ -5,7 +5,9 @@
|
|
5
5
|
###発生している問題・エラーメッセージ
|
6
6
|
その際、コードを実行すると下記のエラーが発生します。
|
7
7
|
```
|
8
|
+
Traceback (most recant call last):
|
9
|
+
File "<stdin>", line 4, in <module>
|
8
|
-
UnicodeDecodeError:'cp932' codec can't decode byte
|
10
|
+
UnicodeDecodeError:'cp932' codec can't decode byte 0x8f in postion 63: illegal multibyte sequence
|
9
11
|
```
|
10
12
|
|
11
13
|
###該当のソースコード
|
2
title
CHANGED
File without changes
|
body
CHANGED
@@ -9,7 +9,7 @@
|
|
9
9
|
```
|
10
10
|
|
11
11
|
###該当のソースコード
|
12
|
-
|
12
|
+
```
|
13
13
|
import os
|
14
14
|
import re
|
15
15
|
|
@@ -58,8 +58,8 @@
|
|
58
58
|
string = file.readline()
|
59
59
|
except:
|
60
60
|
continue
|
61
|
+
```
|
61
62
|
|
62
|
-
|
63
63
|
###試したこと
|
64
64
|
ネットで調べると、どうもcp932ってshift-jis絡みのエンコードのようで、ネットで見つけた下記解決法を試して駄目でした。
|
65
65
|
|
1
title
CHANGED
File without changes
|
body
CHANGED
@@ -9,46 +9,37 @@
|
|
9
9
|
```
|
10
10
|
|
11
11
|
###該当のソースコード
|
12
|
+
"""
|
12
13
|
import os
|
13
14
|
import re
|
14
15
|
|
15
|
-
|
16
|
+
|
16
|
-
引数のdirectory配下の全てのファイルパスを取得する関数
|
17
|
+
#引数のdirectory配下の全てのファイルパスを取得する関数
|
17
|
-
"""
|
18
18
|
def fild_all_files(directory):
|
19
19
|
for root, dirs, files in os.walk(directory):
|
20
20
|
yield root
|
21
21
|
for file in files:
|
22
22
|
yield os.path.join(root, file)
|
23
23
|
|
24
|
-
"""
|
25
|
-
ファイルパスを格納するリスト
|
24
|
+
#ファイルパスを格納するリスト
|
26
|
-
"""
|
27
25
|
file_lists_origin = []
|
28
26
|
file_lists = []
|
29
27
|
|
30
|
-
"""
|
31
|
-
'F:/リサーチ/ニュース'フォルダ配下のファイルパスだけ、file_lists_originリストに追加する。
|
28
|
+
#'F:/リサーチ/ニュース'フォルダ配下のファイルパスだけ、file_lists_originリストに追加する。
|
32
|
-
"""
|
33
29
|
for file in fild_all_files('F:/リサーチ/ニュース'):
|
34
30
|
file_lists_origin.append(file)
|
35
31
|
|
36
|
-
"""
|
37
|
-
file_lists_originリストからテキストファイルだけ、file_listsリストに追加する。
|
32
|
+
#file_lists_originリストからテキストファイルだけ、file_listsリストに追加する。
|
38
|
-
"""
|
39
33
|
for lists in file_lists_origin:
|
40
34
|
if lists.find('txt') > -1:
|
41
35
|
file_lists.append(lists)
|
42
36
|
|
43
|
-
"""
|
44
|
-
欲しい正規表現が入っている箇所だけリストに追加する。
|
37
|
+
#欲しい正規表現が入っている箇所だけリストに追加する。
|
45
|
-
|
38
|
+
|
46
39
|
simei = []
|
47
40
|
page = []
|
48
41
|
|
49
|
-
"""
|
50
|
-
'F:/リサーチ/ニュース'フォルダ配下のテキストファイルを次々読み込んでいき、正規表現にマッチする箇所だけ、simeiとpageリストに追加していく。
|
42
|
+
#'F:/リサーチ/ニュース'フォルダ配下のテキストファイルを次々読み込んでいき、正規表現にマッチする箇所だけ、simeiとpageリストに追加していく。
|
51
|
-
"""
|
52
43
|
|
53
44
|
for files in file_lists:
|
54
45
|
file = open(files)
|