回答編集履歴
4
実用メモ
answer
CHANGED
@@ -5,4 +5,8 @@
|
|
5
5
|
以下の優先順位でHTMLの文字エンコードが決定します。
|
6
6
|
0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」もしくは「<meta charset="????"/>」の解釈
|
7
7
|
0. 「<html lang="??">...」の解釈
|
8
|
-
0. 言語ごとの「デフォルトエンコード」
|
8
|
+
0. 言語ごとの「デフォルトエンコード」
|
9
|
+
|
10
|
+
#### 追記
|
11
|
+
|
12
|
+
性善説であればHTMLドキュメントの書き手が望んでいるエンコードを具体的に記述していることを期待していいのですが、最悪の場合、自国言語を指定すらせず、自国言語のデフォルトエンコード任せのHTMLを書いてしまっている場合などもあります。(さすがにもう減ってきているとは思いますが)そのようなものもスクレイピングの対象に含めたい場合は文字コードの判定ライブラリを利用する必要があったりします。
|
3
typo fix
answer
CHANGED
@@ -3,6 +3,6 @@
|
|
3
3
|
いろんなサイトをスクレイピングするにはそれを意識する必要があると思います。
|
4
4
|
|
5
5
|
以下の優先順位でHTMLの文字エンコードが決定します。
|
6
|
-
0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」もしくは「<meta charset="????">」の解釈
|
6
|
+
0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」もしくは「<meta charset="????"/>」の解釈
|
7
|
-
0. 「<html lang="
|
7
|
+
0. 「<html lang="??">...」の解釈
|
8
8
|
0. 言語ごとの「デフォルトエンコード」
|
2
追記
answer
CHANGED
@@ -3,6 +3,6 @@
|
|
3
3
|
いろんなサイトをスクレイピングするにはそれを意識する必要があると思います。
|
4
4
|
|
5
5
|
以下の優先順位でHTMLの文字エンコードが決定します。
|
6
|
-
0. 「<meta http-equiv="Content-Type" content="text/html; charset=
|
6
|
+
0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」もしくは「<meta charset="????">」の解釈
|
7
7
|
0. 「<html lang="ja">...」の解釈
|
8
8
|
0. 言語ごとの「デフォルトエンコード」
|
1
追記
answer
CHANGED
@@ -1,3 +1,8 @@
|
|
1
1
|
問題点を予測して回答すると(違っていたらすいません)、
|
2
2
|
ブラウザには「デフォルトエンコード」という考え方があります。
|
3
|
-
いろんなサイトをスクレイピングするにはそれを意識する必要があると思います。
|
3
|
+
いろんなサイトをスクレイピングするにはそれを意識する必要があると思います。
|
4
|
+
|
5
|
+
以下の優先順位でHTMLの文字エンコードが決定します。
|
6
|
+
0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」の解釈
|
7
|
+
0. 「<html lang="ja">...」の解釈
|
8
|
+
0. 言語ごとの「デフォルトエンコード」
|