質問編集履歴

4

文章の修正(内容に変化なし)

2017/11/20 12:04

投稿

退会済みユーザー
test CHANGED
File without changes
test CHANGED
@@ -134,4 +134,4 @@
134
134
 
135
135
 
136
136
 
137
- 何卒ろしくお願いいします。する方々の助けになれば幸いです。
137
+ 同じうな現象に困った方々の助けになれば幸いです。

3

参考資料URL追記

2017/11/20 12:04

投稿

退会済みユーザー
test CHANGED
File without changes
test CHANGED
@@ -124,6 +124,10 @@
124
124
 
125
125
  ※Tidyにてhtmlを正しい形に整形しました。
126
126
 
127
+ ※また下記のサイトを参考にしました。
128
+
129
+ https://qiita.com/ShibuyaKosuke/items/86b7a17a57583e8fb4e3
130
+
127
131
 
128
132
 
129
133
  htmlのコードがひどいサイトをスクレイピング

2

解決策を記載。

2017/11/20 12:03

投稿

退会済みユーザー
test CHANGED
File without changes
test CHANGED
@@ -15,8 +15,6 @@
15
15
  $projectUrl = 'http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_detail_2016_033_kihon=true&JigyosyoCd=1372400638-00&PrefCd=13&VersionCd=033';
16
16
 
17
17
 
18
-
19
- $db = new \App\Crawler\SetKaigokensaku(/*$argv*/);
20
18
 
21
19
  $dom = new \DOMDocument();
22
20
 
@@ -68,4 +66,68 @@
68
66
 
69
67
 
70
68
 
69
+ ###追記
70
+
71
+ 下記のコードのように行った結果、xml形式でページ全体を取得できましたので報告いたします。
72
+
73
+ ##解決方法
74
+
75
+ ```
76
+
77
+ ini_set('display_errors', true);
78
+
79
+ error_reporting(E_ALL);
80
+
81
+ $projectUrl = 'http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_detail_2016_033_kihon=true&JigyosyoCd=1372400638-00&PrefCd=13&VersionCd=033';
82
+
83
+
84
+
85
+ $dom = new \DOMDocument();
86
+
87
+ $tidy = new \Tidy;
88
+
89
+
90
+
91
+ $ch = curl_init();
92
+
93
+
94
+
95
+ curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
96
+
97
+ curl_setopt($ch, CURLOPT_ENCODING, 'gzip');
98
+
99
+ curl_setopt($ch, CURLOPT_URL, $projectUrl);
100
+
101
+ $detailRes = curl_exec($ch);
102
+
103
+ $detailRes = str_replace('&', '&', $detailRes);
104
+
105
+ $config = array(
106
+
107
+ // 'drop-empty-elements' => false, // 空の要素を削除しない
108
+
109
+ 'hide-comments' => true, // コメントを削除
110
+
111
+ 'output-xhtml' => true, // xhtml に変換
112
+
113
+ );
114
+
115
+
116
+
117
+ $tidy->parseString($detailRes, $config, 'utf8');
118
+
119
+ $tidy->cleanRepair();
120
+
121
+ $xml = simplexml_load_string($tidy);var_dump($xml);dd();
122
+
123
+ ```
124
+
125
+ ※Tidyにてhtmlを正しい形に整形しました。
126
+
127
+
128
+
129
+ htmlのコードがひどいサイトをスクレイピング
130
+
131
+
132
+
71
- 何卒よろしくお願いいたします。
133
+ 何卒よろしくお願いいたします。する方々の助けになれば幸いです。

1

「やったこと」の追記

2017/11/20 11:39

投稿

退会済みユーザー
test CHANGED
File without changes
test CHANGED
@@ -62,4 +62,10 @@
62
62
 
63
63
 
64
64
 
65
+ ###やったこと
66
+
67
+ curlにしているのが問題なのかと思い、file_get_contentsに変えてみましたが、変わりなくエラーが出てしまいました。
68
+
69
+
70
+
65
71
  何卒よろしくお願いいたします。