質問編集履歴
2
文言修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -40,9 +40,9 @@
|
|
40
40
|
|
41
41
|
$dom = new \DOMDocument;
|
42
42
|
|
43
|
-
$test
|
43
|
+
$testExampleURL = 'https://example.com';
|
44
44
|
|
45
|
-
@$dom->loadHTML(mb_convert_encoding(file_get_contents($test
|
45
|
+
@$dom->loadHTML(mb_convert_encoding(file_get_contents($testExampleURL), 'HTML-ENTITIES', 'UTF-8'));
|
46
46
|
|
47
47
|
$xpath = new \DOMXPath($dom);
|
48
48
|
|
@@ -64,9 +64,9 @@
|
|
64
64
|
|
65
65
|
// ②スクレイピングしたいURLの中身を取得する
|
66
66
|
|
67
|
-
$
|
67
|
+
$exampleURL = 'https://example.com/example';
|
68
68
|
|
69
|
-
@$dom->loadHTML(mb_convert_encoding(file_get_contents($
|
69
|
+
@$dom->loadHTML(mb_convert_encoding(file_get_contents($exampleURL), 'HTML-ENTITIES', 'UTF-8'));
|
70
70
|
|
71
71
|
var_dump($dom->documentElement);
|
72
72
|
|
1
誤字の修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -6,7 +6,7 @@
|
|
6
6
|
|
7
7
|
#概要
|
8
8
|
|
9
|
-
上述のサイトのA画面をスクレイピングするために、A画面をリクエストします。しかしそのサ
|
9
|
+
上述のサイトのA画面をスクレイピングするために、A画面をリクエストします。しかしそのサイトの仕様上、一旦B画面に遷移して内容を確認しなければ、A画面にアクセスすることができません。確認(具体的には画面内のリンクを踏む)した後はセッションIDを通じて、同一ブラウザであることが認識され、その情報が失われない限りは再度B画面に飛ぶことはありません。
|
10
10
|
|
11
11
|
|
12
12
|
|
@@ -72,7 +72,7 @@
|
|
72
72
|
|
73
73
|
```
|
74
74
|
|
75
|
-
こちらの実装では、②のURLの
|
75
|
+
こちらの実装では、②のURLの中身(HTML)を取得時、B画面を取得してしまいます。
|
76
76
|
|
77
77
|
原因として①と②のリクエストが同一のセッションIDを持ってないために起こっていると思いますが、ここからの実装について調べてもよくわかりませんでした。
|
78
78
|
|