teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

4

実用メモ

2021/02/01 00:05

投稿

nobonobo
nobonobo

スコア3367

answer CHANGED
@@ -5,4 +5,8 @@
5
5
  以下の優先順位でHTMLの文字エンコードが決定します。
6
6
  0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」もしくは「<meta charset="????"/>」の解釈
7
7
  0. 「<html lang="??">...」の解釈
8
- 0. 言語ごとの「デフォルトエンコード」
8
+ 0. 言語ごとの「デフォルトエンコード」
9
+
10
+ #### 追記
11
+
12
+ 性善説であればHTMLドキュメントの書き手が望んでいるエンコードを具体的に記述していることを期待していいのですが、最悪の場合、自国言語を指定すらせず、自国言語のデフォルトエンコード任せのHTMLを書いてしまっている場合などもあります。(さすがにもう減ってきているとは思いますが)そのようなものもスクレイピングの対象に含めたい場合は文字コードの判定ライブラリを利用する必要があったりします。

3

typo fix

2021/02/01 00:04

投稿

nobonobo
nobonobo

スコア3367

answer CHANGED
@@ -3,6 +3,6 @@
3
3
  いろんなサイトをスクレイピングするにはそれを意識する必要があると思います。
4
4
 
5
5
  以下の優先順位でHTMLの文字エンコードが決定します。
6
- 0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」もしくは「<meta charset="????">」の解釈
6
+ 0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」もしくは「<meta charset="????"/>」の解釈
7
- 0. 「<html lang="ja">...」の解釈
7
+ 0. 「<html lang="??">...」の解釈
8
8
  0. 言語ごとの「デフォルトエンコード」

2

追記

2021/01/31 23:57

投稿

nobonobo
nobonobo

スコア3367

answer CHANGED
@@ -3,6 +3,6 @@
3
3
  いろんなサイトをスクレイピングするにはそれを意識する必要があると思います。
4
4
 
5
5
  以下の優先順位でHTMLの文字エンコードが決定します。
6
- 0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」の解釈
6
+ 0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」もしくは「<meta charset="????">」の解釈
7
7
  0. 「<html lang="ja">...」の解釈
8
8
  0. 言語ごとの「デフォルトエンコード」

1

追記

2021/01/31 23:55

投稿

nobonobo
nobonobo

スコア3367

answer CHANGED
@@ -1,3 +1,8 @@
1
1
  問題点を予測して回答すると(違っていたらすいません)、
2
2
  ブラウザには「デフォルトエンコード」という考え方があります。
3
- いろんなサイトをスクレイピングするにはそれを意識する必要があると思います。
3
+ いろんなサイトをスクレイピングするにはそれを意識する必要があると思います。
4
+
5
+ 以下の優先順位でHTMLの文字エンコードが決定します。
6
+ 0. 「<meta http-equiv="Content-Type" content="text/html; charset=????"/>」の解釈
7
+ 0. 「<html lang="ja">...」の解釈
8
+ 0. 言語ごとの「デフォルトエンコード」