質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

6056閲覧

スクレイピングの文字化けの解消

okahijiki

総合スコア404

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/09/30 07:45

ウェッブサイトからスクレイピングしたテーブルの文字が化けてしまいます。
解決方法を、どうぞご教示くださいませ。

python

1import pandas as pd 2 3url = 'https://xn--vckya7nx51ik9ay55a3l3a.com/analyses/number_of_companies' 4 5pd.read_html(url)[0]

イメージ説明

◎ネット上で調べ、見よう見まねでやったこと。

import requests from bs4 import BeautifulSoup # やってみたこと、その1 r = requests.get(url) df = BeautifulSoup(r.content, 'html.parser') print(df) Forbidden #やってみたこと、その2 response = requests.get(url) response.encoding = response.apparent_encoding print(response.text) Forbidden

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

yasutakatouさんが既に回答している様に、対象のページの文字コードはUTF-8で構成されている様なので
以下の様にURLのリクエストを行う際にオプションとしてencoding='utf-8'と指定してあげる事で
文字化けが生じる事なくデータを取得する事が可能となっております。

python

1import pandas as pd 2 3url = 'https://xn--vckya7nx51ik9ay55a3l3a.com/analyses/number_of_companies' 4 5df = pd.read_html(url, encoding='utf-8')[0] 6print(df)

投稿2020/09/30 08:08

nto

総合スコア1438

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

okahijiki

2020/09/30 12:16

できました〜 感謝!!
yasutakatou

2020/09/30 12:28

良かったですね!うまくいって僕も嬉しいです
guest

0

該当ページは<meta charset="utf-8">なのでutf-8のようです。
https://senablog.com/python-bs4-encode/
こちらの記事を元にエンコードを指定してみては如何でしょうか。

投稿2020/09/30 07:54

yasutakatou

総合スコア446

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

okahijiki

2020/09/30 12:16

当該ページの文字エンコード、utf-8、確認しました。BeautifulSoupについて、もっと勉強が必要のようです。ありがとうござます〜
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問