yahooで「はてな」を検索した結果ページのHTMLを、urllib2とBeautifulSoup4を使い、以下のコードで取得しました。
ここで、同じ検索結果ページのソースをChromeのデベロッパーツールで見てみると下の写真のようになっていて、取得したHTMLと若干異なっているのですが何故でしょうか?
例えば、「株式会社はてな」は下の写真では<h3>タグに囲まれていますが、取得したHTMLには<h3>タグが見当たりません。一方、取得したHTMLにはid="web"の<div>タグがあるのですが、Chromeで見た方にはありませんでした。
lang
1#coding:utf-8 2import urllib2 3from bs4 import BeautifulSoup 4 5search_word = 'はてな' 6search_url = 'http://search.yahoo.co.jp/search?p=' + search_word + '&ei=UTF-8' 7 8htmldata = urllib2.urlopen(search_url) 9soup = BeautifulSoup(htmldata) 10 11print soup
<取得したHTMLの一部>
lang
1<div id="web"> 2 <h2>ウェブ</h2> 3 <ol> 4 <li> 5 <a href="http://www.hatena.ne.jp/"><b>はてな</b></a> 6 <div>人力検索・ソーシャルブックマーク・ブログ等のコミュニティ指向のWebサービスを提供。</div> 7 <em>www.<b>hatena</b>.ne.jp/</em> 8 </li> 9 <li> 10 <a href="http://hatenablog.com/"><b>はてな</b>ブログ | シンプルでモダンなブログライフを無料で。</a> 11 <div><b>はてな</b>ブログは、だれでも簡単・無料で使える最新のブログサービスです。日々の生活から感じたこと、考えたことを書き残しましょう。</div> 12 <em><b>hatena</b>blog.com/</em> 13 </li> 14 <li> 15 <a href="http://hatenacorp.jp/">株式会社<b>はてな</b></a> 16 <div>2015: 04/20 今週の<b>はてな</b>ブログランキング〔2015年4月第3週〕: 04/17 地元のレコード店に行こう! 4月18日(土)は、レコード・ストア・デイ #RSD: 04/17 「お気に入り・お気に入られ」一覧ページをスマートフォン版に追加し、<b>はてな</b>ブックマークのスマートフォ.</div> 17 <em><b>hatena</b>corp.jp/</em> 18 </li>
![イメージ説明]WIDTH:600
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2015/04/22 03:13