初めてスクレイピングに挑戦しているのですが上手くいきません。
以下のようなサイトを試しに取得しようと考えています。
http://www2j.biglobe.ne.jp/~tatuta/
少しずつ書いては中身を出してというやり方でやろうとしているのですが一番最初のfile_get_contentsでhtmlデータが取得できないでいます。
出力結果はstring(14122) " �c"になってしまいます。
A:これは正しく取得できているのでしょうか。
B:正しく取得できていない
Bの場合はどこが問題なのでしょうか。お願いします。
<?php ini_set('display_errors', true); date_default_timezone_set('Asia/Tokyo'); require_once('phpQuery-onefile.php'); $HTMLData = file_get_contents('http://www2j.biglobe.ne.jp/~tatuta/'); var_dump($HTMLData); $phpQueryObj = phpQuery::newDocument($HTMLData); $a_list = $phpQueryObj['a']; //var_dump($a_list);
追記
現在以下の形で試してもダメでした。
PHP
1 2$HTMLData = file_get_contents('http://www2j.biglobe.ne.jp/~tatuta/'); 3 //$html=mb_convert_encoding($HTMLData, "UTF-8","x-euc-jp"); 4 5 $HTMLData=mb_convert_encoding($HTMLData, "UTF-8", "x-euc-jp"); 6 7 var_dump($HTMLData);```
回答2件
あなたの回答
tips
プレビュー