python requests で取得した構造が実際のページ構造と違う

回答率: 85.48%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.48%

トップ Pythonに関する質問

Q&A

解決済

2回答

4584閲覧

python requests で取得した構造が実際のページ構造と違う

総合スコア17

0グッド

0クリップ

投稿2019/04/18 23:12

編集2019/04/18 23:29

0

0

前提・実現したいこと

pythonでクローラ作成しようとしています。
requestsを使ってページの構造を取得しようとしたのですが、目当ての項目を抽出しようとしたところ
何も返ってきませんでした。
取得した中身を見たところ実際のページの構造と違うように見えるのですが、ちゃんと抽出するためには
どのようにすればよいでしょうか。

なぜページの一部が返ってこないという現象が起きるのでしょうか。

該当のソースコード

import requests
import csv
import time
from bs4 import BeautifulSoup as bs

url = "https://hogehoge"
response = requests.get(url)
html = bs(response.text, "lxml")

試したこと


ページ構造はchromeの「検証」、「ページのソースを表示」両方に目当ての記述があるのを確認してます。

html = bs(response.text, "html.parser")
html = bs(response.text, "lxml-xml")
html = bs(response.text, "html5lib")

→パースの仕方かと思って色々試しましたが、そもそもresponse.textの状態で
抽出したい項目が入ってませんでした。

行動規範の内容に同意します

回答2件

0

ベストアンサー

Pythonスクレイピングのフローチャート
https://imabari.hateblo.jp/entry/2018/12/17/163722

User-Agentをパソコンと同じにする
Javascriptでレンダリングされている
スクレイピング対策されている

1はrequests-htmlで取得
2はrequests-htmlでjavascriptをレンダリングしてから取得
3はわかりません

以下のプログラムで確認できます

Pythonでスクレイピング時にJavaScriptが必要か調べる
https://imabari.hateblo.jp/entry/2018/12/11/103841

あとChromeだとタグが補完されている場合があります

投稿2019/04/18 23:47

総合スコア1286

0

サイト側がUser-Agentヘッダの内容などからレスポンスを出し分けている可能性はないでしょうか。

投稿2019/04/18 23:30

総合スコア1154

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Pythonに関する質問

python requests で取得した構造が実際のページ構造と違う

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【重要なお知らせ】いつもteratailをご利用いただきありがとうございます。現在、認証システムの修正により、一部のユーザーが強制的にログアウトされる可能性がございます。お手数おかけしますが、再度ログインを行なっていただきますよう宜しくお願いいたします。ご不便をおかけし申し訳ございません。

過去のお知らせを見る