質問編集履歴
5
コメント欄で教えていただいた方法で調べた、アスキーコードの一部を追記しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -22,6 +22,13 @@
|
|
22
22
|
|
23
23
|
(list): 「Showing results for https://teratail.com/」
|
24
24
|
(errors): 「Showing results for」
|
25
|
+
|
26
|
+
※5/25AM追記:
|
27
|
+
コメント欄で教えていただいた方法で「Showing results for...」の行のみ残してアスキーコードを調べてみましたが、文字化けしている上、テキストファイルに保存された結果が50万文字超になってしまいました。
|
28
|
+
下記、結果のはじめの1000文字程度のみ記載します。
|
29
|
+
|
30
|
+
line: ÐÏࡱá > þÿ þÿÿÿ Y ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿýÿÿÿ þÿÿÿ þÿÿÿþÿÿÿ
|
31
|
+
c: Ðc: 208c: Ïc: 207c: c: 17c: àc: 224c: ¡c: 161c: ±c: 177c: c: 26c: ác: 225c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: >c: 62c: c: 0c: c: 3c: c: 0c: þc: 254c: ÿc: 255c: c: 9c: c: 0c: c: 6c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 2c: c: 0c: c: 0c: c: 0c: c: 1c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 16c: c: 0c: c: 0c: c: 2c: c: 0c: c: 0c: c: 0c: c: 1c: c: 0c: c: 0c: c: 0c: þc: 254c: ÿc: 255c: ÿc: 255c: ÿc: 255c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: c: 0c: Yc: 89c: c: 0c: c: 0c: c: 0c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c: ÿc: 255c:
|
25
32
|
|
26
33
|
### 発生している問題・エラーメッセージ
|
27
34
|
|
4
コメント欄でご提案いただいた通り、比較・抽出直前にprintした「list」と「errors」の検証結果を追記しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -15,6 +15,13 @@
|
|
15
15
|
ただ、今回作成しているプログラムは「ウェブページの内容を保存したテキストファイルを読み込み、条件(errorlist)に当てはまる行のみを取得して「output.txt」に保存する」ところまでが処理の流れになっているのですが、エラーメッセージが表示されなくなっても「output.txt」の中身は「 results.write(f'\nページ{base}\n')」で記入したページ番号以外空白のままです。
|
16
16
|
もしかしたら読み取るテキストファイルのエンコーディングがMacRomanだと配列「errorlist」の中身を読み取れないということなのでしょうか。
|
17
17
|
見当違いなことを伺ってしまっているかもしれませんが、教えていただければ幸いです。
|
18
|
+
|
19
|
+
※5/23AM追記:
|
20
|
+
コメント欄でご提案いただいたように、「list」と「errors」を比較する段階で、両者の内容をprintするよう処理を変更して確認してみました。
|
21
|
+
結果としては下記の通り、見た目上では抽出条件に合った内容が複数見つかりましたが、「output.txt」にはやはり反映されていませんでした。
|
22
|
+
|
23
|
+
(list): 「Showing results for https://teratail.com/」
|
24
|
+
(errors): 「Showing results for」
|
18
25
|
|
19
26
|
### 発生している問題・エラーメッセージ
|
20
27
|
|
3
コメント欄で頂いた修正方法を試した結果と成功・失敗の判断基準、考察について追記しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -6,9 +6,15 @@
|
|
6
6
|
|
7
7
|
「サイトから必要な情報をコピー・保存する」という段階は問題なく実行されているのですが、その後必要な情報のみを抜き出して保存しなおす処理を行おうとすると下記のようなデコードエラーが表示されてしまいます。
|
8
8
|
|
9
|
-
※5/22追記:
|
9
|
+
※5/22AM追記:
|
10
10
|
エラーは1つ目のファイル「01.txt」の時点で発生しており、該当ファイルの1行目の内容(検証時)は「Nu Html Checker」です。
|
11
|
-
なお、エンコーディングはメモ帳で確認するとUTF-8、コメント欄で教えていただいた方法(pythonのchardetライブラリ使用)で確認すると「cRoman', 'confidence': 0.4850749971805571, 'language': ''}」となります。
|
11
|
+
なお、エンコーディングはメモ帳で確認するとUTF-8、コメント欄で教えていただいた方法(pythonのchardetライブラリ使用)で確認すると「MacRoman', 'confidence': 0.4850749971805571, 'language': ''}」となります。
|
12
|
+
|
13
|
+
※5/22PM追記:
|
14
|
+
コメント欄で教えていただいた通り、読み込むテキストファイルのエンコーディングを「ISO-8859-1」に変更したところ、エラーコードは表示されなくなりました。
|
15
|
+
ただ、今回作成しているプログラムは「ウェブページの内容を保存したテキストファイルを読み込み、条件(errorlist)に当てはまる行のみを取得して「output.txt」に保存する」ところまでが処理の流れになっているのですが、エラーメッセージが表示されなくなっても「output.txt」の中身は「 results.write(f'\nページ{base}\n')」で記入したページ番号以外空白のままです。
|
16
|
+
もしかしたら読み取るテキストファイルのエンコーディングがMacRomanだと配列「errorlist」の中身を読み取れないということなのでしょうか。
|
17
|
+
見当違いなことを伺ってしまっているかもしれませんが、教えていただければ幸いです。
|
12
18
|
|
13
19
|
### 発生している問題・エラーメッセージ
|
14
20
|
|
2
コメントで頂いたご指摘を元に、エラーが発生しているファイル・行の情報、メモ帳・pythonを利用して確認したエンコーディングの情報などを追記しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -5,7 +5,10 @@
|
|
5
5
|
### 前提
|
6
6
|
|
7
7
|
「サイトから必要な情報をコピー・保存する」という段階は問題なく実行されているのですが、その後必要な情報のみを抜き出して保存しなおす処理を行おうとすると下記のようなデコードエラーが表示されてしまいます。
|
8
|
+
|
9
|
+
※5/22追記:
|
8
|
-
|
10
|
+
エラーは1つ目のファイル「01.txt」の時点で発生しており、該当ファイルの1行目の内容(検証時)は「Nu Html Checker」です。
|
11
|
+
なお、エンコーディングはメモ帳で確認するとUTF-8、コメント欄で教えていただいた方法(pythonのchardetライブラリ使用)で確認すると「cRoman', 'confidence': 0.4850749971805571, 'language': ''}」となります。
|
9
12
|
|
10
13
|
### 発生している問題・エラーメッセージ
|
11
14
|
|
1
コメントでご指摘いただいた通り、エラーの発生しているテキストファイルのファイル名・エンコーディングを追記しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -4,7 +4,8 @@
|
|
4
4
|
|
5
5
|
### 前提
|
6
6
|
|
7
|
-
「サイトから必要な情報をコピー・保存する」という段階は問題なく実行されているのですが、その後必要な情報のみを抜き出して保存しなおす処理を行おうとすると下記のようなデコードエラーが表示されてしまいます。
|
7
|
+
「サイトから必要な情報をコピー・保存する」という段階は問題なく実行されているのですが、その後必要な情報のみを抜き出して保存しなおす処理を行おうとすると下記のようなデコードエラーが表示されてしまいます。
|
8
|
+
なお、エラーは1つ目のファイル「01.txt」の時点で発生していますが、メモ帳で確認する限り、正しくUTF-8で保存されている様子です。
|
8
9
|
|
9
10
|
### 発生している問題・エラーメッセージ
|
10
11
|
|