【前提条件】
他人サイト
https://hage.com/data.php
があります。
ここの複数ページのスクレイピングをしたいというのが今回の質問の趣旨です。
https://hage.com/data.php は複数のページを持っているのですが、2ページ目以降の表示は、POSTにて次ページの取得をします。
<form name="main" id="ID" method="post" action="https://hage.com/data.php"> <input type="submit" name="page" class="number" value="1" /> <input type="submit" name="page" class="number" value="2" /> <input type="submit" name="page" class="number" value="3" /> <input type="submit" name="page" class="number" value="4" /> <input type="submit" name="page" class="number" value="5" /> <input type="submit" name="page" class="number" value="6" /> </form>postで表示しますので、1ページ目も2ページ目もURLは同じhttps://hage.com/data.phpです。(スクレイピンク難度が高いです)
【やったこと】
このページは、他ページからのPOSTを受け入れる構造のため、当方で下記のページを作るリました。http://hogehogehoge.jp/get_page3.php
<form name="main" id="ID" method="post" action="https://hage.com/data.php"> <input type="hidden" name="page" class="number" value="3" /> <script type="text/javascript"> window.onload = function () { document.getElementById( "ID" ).click(); } </script> <input type="submit" id="ID" name="Btn1" /> </form>http://hogehogehoge.jp/get_page3.phpは読み込まれたと同時にwindow.onload = function により、https://hage.com/data.phpに対しpage=3をPOSTとます。
従い、アクセスした直後には
http://hogehogehoge.jp/get_page3.php → https://hage.com/data.php
と遷移し、https://hage.com/data.php の3ページを表示します。
【やりたい事】
この遷移後のhttps://hoge.com/data.phpのデータをスクレイピングしたいと考えています。
普通にGETすると、遷移前の http://hogehogehoge.jp/get_page3.php の中身を取ってきます。
遷移後の https://hoge.com/data.php の中身をスクレイピングする方法をお教えいただきたくお願いいたします。
回答1件
あなたの回答
tips
プレビュー