こちらのURL(https://iotnews.jp/)のページ内容を取得し<title>タグと<h1>タグの要素を取得したいのですが、なぜか取得できません。少なくともアクセスは出来ていて、エラーも出ないのですが要素の抽出がうまく出来なくて悩んでおります。
なぜ要素の抽出が出来ないのか?どのようにコードを変更すればうまくいくか?等、相談させて頂きたく、よろしくお願い致します。
(他のウェブサイト①https://codezine.jp/や②https://news.google.comでは、以下のコードで問題なく要素を取得できております。)
###①実行したコード
import requests r = requests.get("https://iotnews.jp/") print(type(r)) print(r.status_code) text = r.text for line in text.split("\n"): if "<title>" in line or "<h1>" in line: print(line.strip())
他のウェブサイトをスクレイピングするときは
3行目のURL部分を"https://codezine.jp"あるいは"https://news.google.com"に置き換えて実行しております。
###実行結果
a) IoT newsの場合
<class 'requests.models.Response'> 200
→アクセスは成功(200)しているが、要素が取得出来ていない
b) CodeZineの場合
<class 'requests.models.Response'> 200 <title>CodeZine(コードジン)</title> <h1><a href="/"><img src="//cz-cdn.shoeisha.jp/lib/img/cmn/cmn-header-logo.png" alt="CodeZine(コードジン)" ></a></h1>
→ アクセスに成功(200)し、かつ<title>,<h1>タグの要素も取得出来ている
試したこと(調べたこと)
Google Chromeの検証機能を使用してIoT newsのページのソースを確認しました。
少なくとも<title>タグの要素は存在しているようです。
codezineの場合、当然、<title>タグが存在している
補足情報(FW/ツールのバージョンなど)
Python 3.7.3
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/06/23 09:23
2019/06/23 09:47
2019/06/23 10:19
2019/06/23 12:59
2019/06/23 20:01