質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Chrome

Google Chromeは携帯、テレビ、デスクトップなどの様々なプラットフォームで利用できるウェブブラウザです。Googleが開発したもので、Blink (レンダリングエンジン) とアプリケーションフレームワークを使用しています。

Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

1777閲覧

urllib2で取得したHTMLがブラウザで見たものと違う

16Cha

総合スコア19

Chrome

Google Chromeは携帯、テレビ、デスクトップなどの様々なプラットフォームで利用できるウェブブラウザです。Googleが開発したもので、Blink (レンダリングエンジン) とアプリケーションフレームワークを使用しています。

Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2015/04/21 10:54

編集2015/04/21 11:02

yahooで「はてな」を検索した結果ページのHTMLを、urllib2とBeautifulSoup4を使い、以下のコードで取得しました。

ここで、同じ検索結果ページのソースをChromeのデベロッパーツールで見てみると下の写真のようになっていて、取得したHTMLと若干異なっているのですが何故でしょうか?

例えば、「株式会社はてな」は下の写真では<h3>タグに囲まれていますが、取得したHTMLには<h3>タグが見当たりません。一方、取得したHTMLにはid="web"の<div>タグがあるのですが、Chromeで見た方にはありませんでした。

lang

1#coding:utf-8 2import urllib2 3from bs4 import BeautifulSoup 4 5search_word = 'はてな' 6search_url = 'http://search.yahoo.co.jp/search?p=' + search_word + '&amp;ei=UTF-8' 7 8htmldata = urllib2.urlopen(search_url) 9soup = BeautifulSoup(htmldata) 10 11print soup

<取得したHTMLの一部>

lang

1<div id="web"> 2 <h2>ウェブ</h2> 3 <ol> 4 <li> 5 <a href="http://www.hatena.ne.jp/"><b>はてな</b></a> 6 <div>人力検索・ソーシャルブックマーク・ブログ等のコミュニティ指向のWebサービスを提供。</div> 7 <em>www.<b>hatena</b>.ne.jp/</em> 8 </li> 9 <li> 10 <a href="http://hatenablog.com/"><b>はてな</b>ブログ | シンプルでモダンなブログライフを無料で。</a> 11 <div><b>はてな</b>ブログは、だれでも簡単・無料で使える最新のブログサービスです。日々の生活から感じたこと、考えたことを書き残しましょう。</div> 12 <em><b>hatena</b>blog.com/</em> 13 </li> 14 <li> 15 <a href="http://hatenacorp.jp/">株式会社<b>はてな</b></a> 16 <div>2015: 04/20 今週の<b>はてな</b>ブログランキング〔2015年4月第3週〕: 04/17 地元のレコード店に行こう! 4月18日(土)は、レコード・ストア・デイ #RSD: 04/17 「お気に入り・お気に入られ」一覧ページをスマートフォン版に追加し、<b>はてな</b>ブックマークのスマートフォ.</div> 17 <em><b>hatena</b>corp.jp/</em> 18 </li>

![イメージ説明]WIDTH:600

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

検証はしていませんが、送信しているUAの差ではないでしょうか?
UAをはじめとする各種HTTPヘッダを一致させてもなお結果が変わるようであればよく分かりません。

投稿2015/04/21 23:42

htsign

総合スコア870

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

16Cha

2015/04/22 03:13

回答ありがとうございます。 UAを変更してやってみたところうまくいきました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問