Google Apps Scriptで,あるサイトのスクレイピングをしたいのですが,
UrlFetchApp.fetchでうまくHTMLを取ってこれません.
以下のようなコードで,HTMLが取ってこれてるかどうかだけを確認したのですが,
ログは空っぽでした.
GAS
1function myFunction() { 2 var url = 'https://www.abercrombie.co.jp/'; 3 4 var options = { 5 muteHttpExceptions : true 6 }; 7 8 var response = UrlFetchApp.fetch(url, options); 9 Logger.log(response); 10}
問題となっているサイトにブラウザでアクセスすると,本来のページの手前に
図のようなダイアローグボックス(?)が出ます.
Ruby+Seleniumでこのサイトにアクセスして.このポップアップをクローズして
やると,この背後にあるページからちゃんと情報を切り出してくることが
できます.
それで,GASでこのサイトからHTMLを取ってきてくれないのは,このダイアローグボックスが
邪魔をしてるのでは無いかと推測しました.
GASで,このダイアローグボックスを閉じるなりして,なんとかHTMLを取ってくる方法は
ないでしょうか?
ダイアログ中にもありますが、「ウェブサイトの利用規約」も確認しましょう。スクレイピングまたはそれに類する行為を禁止している場合は諦めましょう。