質問編集履歴

2

文言修正

2019/10/01 21:30

投稿

komo_ta
komo_ta

スコア275

test CHANGED
File without changes
test CHANGED
@@ -40,9 +40,9 @@
40
40
 
41
41
  $dom = new \DOMDocument;
42
42
 
43
- $testHogeURL = 'https://www.hoge.co.jp';
43
+ $testExampleURL = 'https://example.com';
44
44
 
45
- @$dom->loadHTML(mb_convert_encoding(file_get_contents($testHogeURL), 'HTML-ENTITIES', 'UTF-8'));
45
+ @$dom->loadHTML(mb_convert_encoding(file_get_contents($testExampleURL), 'HTML-ENTITIES', 'UTF-8'));
46
46
 
47
47
  $xpath = new \DOMXPath($dom);
48
48
 
@@ -64,9 +64,9 @@
64
64
 
65
65
  // ②スクレイピングしたいURLの中身を取得する
66
66
 
67
- $hogeURL = 'https://www.hogehoge.co.jp/hogehoge';
67
+ $exampleURL = 'https://example.com/example';
68
68
 
69
- @$dom->loadHTML(mb_convert_encoding(file_get_contents($hogeURL), 'HTML-ENTITIES', 'UTF-8'));
69
+ @$dom->loadHTML(mb_convert_encoding(file_get_contents($exampleURL), 'HTML-ENTITIES', 'UTF-8'));
70
70
 
71
71
  var_dump($dom->documentElement);
72
72
 

1

誤字の修正

2019/10/01 21:30

投稿

komo_ta
komo_ta

スコア275

test CHANGED
File without changes
test CHANGED
@@ -6,7 +6,7 @@
6
6
 
7
7
  #概要
8
8
 
9
- 上述のサイトのA画面をスクレイピングするために、A画面をリクエストします。しかしそのサービスの仕様上、一旦B画面に遷移して内容を確認しなければ、A画面にアクセスすることができません。確認(具体的には画面内のリンクを踏む)した後はセッションIDを通じて、同一ブラウザであることが認識され、その情報が失われない限りは再度B画面に飛ぶことはありません。
9
+ 上述のサイトのA画面をスクレイピングするために、A画面をリクエストします。しかしそのサイトの仕様上、一旦B画面に遷移して内容を確認しなければ、A画面にアクセスすることができません。確認(具体的には画面内のリンクを踏む)した後はセッションIDを通じて、同一ブラウザであることが認識され、その情報が失われない限りは再度B画面に飛ぶことはありません。
10
10
 
11
11
 
12
12
 
@@ -72,7 +72,7 @@
72
72
 
73
73
  ```
74
74
 
75
- こちらの実装では、②のURLのコンテンツを取得時、B画面の内容を取得してしまいます。
75
+ こちらの実装では、②のURLの中身(HTML)を取得時、B画面を取得してしまいます。
76
76
 
77
77
  原因として①と②のリクエストが同一のセッションIDを持ってないために起こっていると思いますが、ここからの実装について調べてもよくわかりませんでした。
78
78