Pythonによるwebスクレイピング

問題点:サーバーに置く関係でCUI(DOM形式?)でスクレイピングをしたいのですが、タブで表示データを変えるサイトのHTMLソースコードでdivの中にliが複数あり2つ目以降が閉じられているために、単純なrequestsのget等では一つ目の情報しか取り出せません。

—————————————————————————

試したこと1:seleniumとwebdriverのgoogle chromeでheadlessを利用し、get.page_sourceでページソース全文をとることができました。一応これで要望は満たしていますが処理が重く遅いです。

試したこと2:requestsのgetやpostで擬似的にタブをクリックするのと同等の操作ができないかと考えGoogleChromeの検証のNetworkで挙動を見たりしましたがうまくいきませんでした。

—————————————————————————

質問:このようなwebサイトをDOM形式で全ソースコードを取得する方法はございますか？

よろしくお願い致します。

tiitoi

2019/10/24 09:17

Javascript を実行する必要があるので1の方法しかないと思います。

退会済みユーザー

2019/10/24 11:48

ご回答ありがとうございます。参考になりました。

shirai

2019/10/28 04:32

2つめ以降が閉じられているとはどういう状況なのでしょうか

退会済みユーザー

2019/10/30 23:00

非常に簡素な例えですが、 <div> <li>←1つ目 <table> <tr> <tr> </table> </li> <li></li> ←2つ目 <li></li> ←3つ目 </div> といった感じです。 1つ目は開けており中の情報が取り出せますが、2つ目以降は閉じており、仮にBeautifulSoupで中のタグを指定して取り出そうとしても、そのようなものは存在しないとなります。表現が分かりませんが、閉じられており、中のデータを読み込めていないと思われます。

shirai

2019/10/31 04:30

あなたの元の質問ではその2つめ3つめの閉じられたタグの中身が取得できないということですが、その閉じられているliタグの中はタブをクリックすることで要素が出現するということでしょうか。そのタブ周辺のDOMもいただけないでしょうか。

退会済みユーザー

2019/10/31 09:10

仰る通りで、タブをクリックすると中の要素が出現します。

shirai

2019/10/31 09:22

でしたらそのタブのDOMもください。それを使わないとプログラムが書けないのでご回答できないです。

行動規範の内容に同意します

回答2件

対象サイトの構造にもよりますが、requestでも取得できます。

たとえば https://teratail.com/ も同じような構造になっています。GoogleChromeの検証のNetworkを開いた状態で「未回答」などのタブをクリックすると、0?_= のようなPOSTリクエストが見えると思います。それをダブルクリックして新しいタブで開くとhttps://teratail.com/questions/ajax_feed/20/0/btnUnanswered/0?_= といったURLであることが確認できるので、requestで同じようにPOSTで発行してやればよいです。

teratailだと応答がHTML文字列なので、それをBeautifulSoup4などのパーサに食わせればDOMが手に入ります。
なお、ajaxだと「全体DOM」ではなく部分的な情報しかないはずです。うまいこと組み立ててください。

投稿2019/10/28 01:28