質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

Q&A

解決済

1回答

4715閲覧

画面遷移前に処理が走ってしまう

peimish

総合スコア17

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

0グッド

0クリップ

投稿2019/06/03 09:26

前提・実現したいこと

tampermonkeyを使って、検索ボタンを押したあとの画面の情報をスクレイピングしようとしています。

発生している問題

該当サイトでワードを検索し、画面遷移後のページでスクレイピングする処理が動いてほしいのですが、
先にスクレイピングの処理が走り、そのあとに画面が遷移してしまいます。

該当のソースコード

javascript

1const searchWords = ['javascript','java']; 2getInfo(searchWords); 3 4function getInfo(searchWords) { 5 'use strict'; 6 searchWords.forEach(function(word) { 7 sleep(10000); 8 //検索欄にワードを入力 9 let searchBox = document.getElementById('searchText'); 10 searchBox.value = word; 11 //検索ボタンクリック 12 document.getElementById('searchButton').click(); 13 //スクレイピング処理 14     ・・・・・ 15  }); 16}; 17 18function sleep(waitMsec) { 19 var startMsec = new Date(); 20 while (new Date() - startMsec < waitMsec); 21};

試したこと

whileで数秒間空ループして待っていれば画面遷移して、遷移後の画面でスクレイピングの処理を動かせるかと思ったのですが、
現状のコードだと数秒待機したのち(画面遷移せず)スクレイピングの処理が走り、その後画面遷移してしまいます。

スクレイピングやjavascript自体が初めてでこの挙動がどうしても理解できません。
どうかご教示いただけると幸いです。
お手数をおかけしますが、何卒よろしくお願いいたします!

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

CHERRY

2019/06/03 09:30

これは、どこに記載して、どの様に実行されているのでしょうか?
peimish

2019/06/03 10:38

chrome版のtampermokey上で、検索欄のある画面と検索後の画面が/search配下なので、 /search*の画面の時にスクリプトが起動するようにしています! これで情報足りていますでしょうか?????
m.ts10806

2019/06/04 02:22 編集

回答依頼いただきましたが、スクレイピングは色々と情報取得先のスタンス次第では問題が起きることもあるので(禁止を明確にうたっているところもあります)、回答は控えさせていただきたく。
guest

回答1

0

ベストアンサー

検索ボタンのクリックによってページ遷移が発生するのだろうと推測して回答させていただきます。

その sleep 関数の実装を簡単に解説しますと、

javascript

1function sleep(waitMsec) { 2 var startMsec = new Date(); 3 // 開始時刻を取得する 4 while (new Date() - startMsec < waitMsec); 5 // 新たに取得した現在時刻が開始時刻より waitMsec 経過するまで繰り返す 6};

となりますので、sleep(10000); の行の実行が終わるのは 10秒後です。

そして、検索ボタンのクリックの処理 document.getElementById('searchButton').click(); はその後に記述されているので、当然この部分が実行されるのは 10 秒後となります。

待機中にスクレイピングの処理が走っているようなことを記述されていらっしゃいますが、おそらくその点は勘違いで、

  1. 10秒スリープ
  2. document.getElementById('searchButton').click(); 実行
  3. (ページ遷移が完了していない状態で) スクレイピング処理実行

という処理順序になっているのではないかと思います。


また、もう一つ気になるのが、一般的に JavaScript はイベントベースの処理となっており、処理が並列化されないという点です。

なので、仮に

javascript

1document.getElementById('searchButton').click(); 2sleep(1000); 3/// ... スクレイピング処理 ... ///

といった形に修正しても、処理の順序は結局、

  1. クリックイベントを イベントキューに登録
  2. 10秒待機
  3. (元のページ上で)スクレイピング処理
  4. (すべてのスクリプトの処理が完了した後) イベントキュー消化 → ページ遷移発生

となるのではないか……という気がします。こちらは tampermonkey 上でどのように解釈されるか存じないので、杞憂かもしれませんが。


(以下コメントを受けて追記)
以下のようにすると、sleep 関数を使わず、指定した処理の実行をイベントキューの後ろに予約できます。

javascript

1document.getElementById('searchButton').click(); 2 // 先にページ遷移を実行してしまう 3setTimeout(function() { 4 // ... スクレイピング処理 ...// 5}, 10000); // <= 10秒後 = 10000ミリ秒後に実行を予約する。

投稿2019/06/03 12:19

編集2019/06/04 11:50
R.Mizukami

総合スコア1077

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

peimish

2019/06/03 14:07

回答ありがとうございます! sleepの位置はサンプルコード作ってる時に間違えておりました???? 実際はご指摘の通りの位置にsleepを記述しているのですが、まさにその通りの挙動です???? この場合はどのような記述をすれば遷移後にスクレイピングの処理を実行出来るでしょうか? 教えていただけると幸いです???? お手数お掛けしますが、よろしくお願いいたします。
peimish

2019/06/04 12:31

なるほど!そうすれば良かったのですね! 本当に助かりました! ご丁寧にありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問