teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

3

表現を修正

2021/08/27 12:30

投稿

Daregada
Daregada

スコア11990

answer CHANGED
@@ -5,7 +5,7 @@
5
5
  +dfs = pd.read_html("http://2689web.com/1960/WD/WD10.html", encoding="cp932")
6
6
  ```
7
7
 
8
- 補足: このページのHTMLのmetaタグには、`charset=Shift_JIS`と書かれています。しかし、`pd.read_html`のエンコーディングに`Shift_JIS`を指定すると、質問文に含まれているようなエラーが発生します。
8
+ 補足: このページのHTMLのmetaタグには、`charset=Shift_JIS`と書かれています。しかし、`pd.read_html`のエンコーディングに`Shift_JIS`を指定すると、(7つめの表の読み込み途中に中断されて`dfs[9]`は生成されず)質問文に含まれているようなエラーが発生します。
9
9
 
10
10
  これは、選手名「蓜島」(はいじま)の「蓜」の字がIANA定義の`Shift_JIS`には含まれていないためです。この字は、Microsoftコードページ932(`cp932`)に追加された拡張漢字なので、正しく取り扱うにはエンコーディングに`cp932`を指定する必要があります。
11
11
 

2

誤字を修正

2021/08/27 12:30

投稿

Daregada
Daregada

スコア11990

answer CHANGED
@@ -5,7 +5,7 @@
5
5
  +dfs = pd.read_html("http://2689web.com/1960/WD/WD10.html", encoding="cp932")
6
6
  ```
7
7
 
8
- 捕捉: このページのHTMLのmetaタグには、`charset=Shift_JIS`と書かれています。しかし、`pd.read_html`のエンコーディングに`Shift_JIS`を指定すると、質問文に含まれているようなエラーが発生します。
8
+ 補足: このページのHTMLのmetaタグには、`charset=Shift_JIS`と書かれています。しかし、`pd.read_html`のエンコーディングに`Shift_JIS`を指定すると、質問文に含まれているようなエラーが発生します。
9
9
 
10
10
  これは、選手名「蓜島」(はいじま)の「蓜」の字がIANA定義の`Shift_JIS`には含まれていないためです。この字は、Microsoftコードページ932(`cp932`)に追加された拡張漢字なので、正しく取り扱うにはエンコーディングに`cp932`を指定する必要があります。
11
11
 

1

補足を追加

2021/08/27 12:23

投稿

Daregada
Daregada

スコア11990

answer CHANGED
@@ -3,4 +3,10 @@
3
3
  ```diff
4
4
  -dfs = pd.read_html("http://2689web.com/1960/WD/WD10.html")
5
5
  +dfs = pd.read_html("http://2689web.com/1960/WD/WD10.html", encoding="cp932")
6
- ```
6
+ ```
7
+
8
+ 捕捉: このページのHTMLのmetaタグには、`charset=Shift_JIS`と書かれています。しかし、`pd.read_html`のエンコーディングに`Shift_JIS`を指定すると、質問文に含まれているようなエラーが発生します。
9
+
10
+ これは、選手名「蓜島」(はいじま)の「蓜」の字がIANA定義の`Shift_JIS`には含まれていないためです。この字は、Microsoftコードページ932(`cp932`)に追加された拡張漢字なので、正しく取り扱うにはエンコーディングに`cp932`を指定する必要があります。
11
+
12
+ [Microsoftコードページ932 - Wikipedia](https://ja.wikipedia.org/wiki/Microsoft%E3%82%B3%E3%83%BC%E3%83%89%E3%83%9A%E3%83%BC%E3%82%B8932)