質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

2951閲覧

googleの検索結果からURLとタイトルを取得時のclass

nobita_nobi

総合スコア16

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/03/09 16:19

前提・実現したいこと

プログラミング初心者です、よろしくお願いします。

python3 bs4を使用して、googleの検索結果からURLとタイトルを取得しようとしています。

googleの検索結果のhtmlの要素構成をchromeのデベロッパーツールで確認した場合と、
pythonのbs4で読み込んで取得した場合で、構成、classが異なっています。
beautiful soup4の仕様なのでしょうか?

発生している問題・エラーメッセージ

■chromeの開発ツール上の要素の構成

html

1 2<div class="g"> 3 <!--m--> 4 <div data-hveid="SSSSSS" data-ved="AAA"> 5 <div class="rc"> 6 <div class="r"> 7 <a href="https://www.XXX.XXXXX.XXXXXX"> 8 <h3 class="LC20lb">hogehoge_hogehoge</h3> 9 </a> 10 </div> 11 </div> 12 </div> 13</div> 14

■pythonのbeautiful soup4でclass "g"を取得した場合

html

1<div class="g"> 2  <h3 class="r"> 3 <a href="href="https://www.XXX.XXXXX.XXXXXX""> 4 hogehoge_hogehoge 5 </a> 6 </h3> 7</div> 8

python3.6

試したこと

上記のchrome上のコードを参考にして、
soup.find("div",class_ = "rc")
を実行しても、”None"が返されます。

”googleの検索結果からURLとタイトルを取得”は先人の方のを参考にしています。

参考:URL
https://arakan-pgm-ai.hatenablog.com/entry/2018/01/17/080000

*この方の画像だと、ブラウザの開発ツールから見たclassが一致しています。

教えていただけると幸いです。
よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

私もpython初心者です。確認ですけど、もしかしたら下記の理由ということはないですか?つまりなんらかのスクリプトがclass="g"そのものを上書き(最適化?)しているとか?だとすると違っていてもおかしくないと思いますが。すいません、専門家ではない一般人の意見でした。

Python Webスクレイピング テクニック集「取得できない値は無い」JavaScript対応@追記あり6/12 - Qiita

JavaScriptはブラウザ側で動作するため、直接HTMLファイルをダウンロードするPythonではJavaScriptが実行されずに日経平均株価が表示されません。>

ちなみに上記のサイトの解決策は以下です。私はまだやったことありませんが、今度やってみようと思ってました。ただし今回のケースでそこまで必要としているかはわかりませんが。

ブラウザで正しく描画できるならブラウザを使ってWebスクレイピングすればいいんです。

具体的に何をするのかと言うと、WebブラウザをPythonを使って操作してWebブラウザでJavaScriptを実行させた後にその実行されたHTMLを取得します。>

投稿2019/03/09 17:11

toshi17922062

総合スコア183

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nobita_nobi

2019/03/10 09:12

教えて頂いたのを参考に確認したところ、chromeの開発ツールと同じ構成で読み込むことが出来ました! Java scriptの実行も必要なのですね、勉強になりました。 一歩ずつ勉強して参ります、、ご回答ありがとうございました!
toshi17922062

2019/03/10 13:42

解決できてなによりです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問