質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1292閲覧

pythonによるスクレイピングでHTMLを取得したい

kazuki__

総合スコア28

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/10/20 05:53

編集2018/10/20 07:56

pythonでrequestsを使って、WebページからHTMLを取得しようとしています。
具体的には読書メーターのページの作家名を検索した時のHTMLを取得したいのですが、
https://bookmeter.com/search?keyword=夏目漱石のようなURLでpythonのrequestsを使ってアクセスすると、WebページのHTMLではなく、検索した作家の本の情報が格納されたJSONデータが返ってきてしまいます。

普通にブラウザからアクセスすると、Webページが表示される(HTMLで返ってくる)のに、プログラムからアクセスするとJSONが返ってくるのはどういった仕組みになっているのでしょうか。
それとプログラムからアクセスした場合にもHTMLを取得するにはどうすれば良いのでしょうか。

ご教授いただけますと幸いです。よろしくお願いいたします。

(追記)
コードはこんな感じです。

import requests url = 'https://bookmeter.com/search' params = { 'keyword': '夏目漱石' } r = requests.get(url, params=params) print(r.headers['content-type']) print(r.text)

printしたContent-Typeを見てみるとapplication/jsonとなっているのですが、
どのように実行したらhtmlで返ってきましたでしょうか。

(追記)
コンソールで次のコードを打っても、同じくjsonが返ってきました。

curl -X GET https://bookmeter.com/search?keyword=%E5%A4%8F%E7%9B%AE%E6%BC%B1%E7%9F%B3

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

moscow3

2018/10/20 06:00

こちらでやってみたところ普通にHTMLが返ってきました。 実行したコードを載せてもらはないことには何が原因かは分かりません。 (とはいえ、実際に処理するならjsonのほうが使いやすいのではと思ったりも・・)
guest

回答2

0

私が試したところでは、curl -X POST...とするとhtmlが返ってくるようですね。当該サイトでは、リクエストの種類によって違うものを返すように設定されているということではないでしょうか。

投稿2018/10/20 08:40

KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kazuki__

2018/10/20 11:08

なるほど、確かにPOSTするとhtmlが返ってきますね。 ブラウザからのアクセスってGETリクエストかと思っていたんですが、POSTリクエストにも出来るんですね。そこのところ実装の仕方いまいちよくわかりませんが、調べてみます! 回答ありがとうございます!
guest

0

ベストアンサー

APIのエンドポイントがそのままURLなのでしょうか?(申し訳ないですが正確なことは分からないので他の方からの回答を期待してください)

とりあえず、 beauriful soupとurllibを用いた動くサンプルです。
(pip installが必要です)

python

1from bs4 import BeautifulSoup 2import urllib.request 3url = 'https://bookmeter.com/search?keyword=%E5%A4%8F%E7%9B%AE%E6%BC%B1%E7%9F%B3' 4req = urllib.request.Request(url) 5response = urllib.request.urlopen(req) 6html = response.read() 7soup = BeautifulSoup(html, "lxml") 8print(soup)

また、、出力の時点でパースされているので、

python

1 elms = soup.find_all(class_='class_name') 2 for elm in elms: 3 print(elms.txt)

みたいに特定のクラスの要素だけ取得して出力とかもできます。

投稿2018/10/20 08:09

moscow3

総合スコア201

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kazuki__

2018/10/20 08:19

回答ありがとうございます! サンプルを動かしてみたところ、期待通りの動作でした。 今回叩いてるURLは普通のWebページのURLでAPIのエンドポイントではないと思います。 でもどうしてurllibで叩くと、HTMLが返ってくるのに、 requestsで叩くと、JSONが返ってくるのでしょうか。 そこの違いがよくわかりません。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問