質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

解決済

2回答

2088閲覧

CURLの使い方

tuckQ

総合スコア64

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2016/08/01 13:43

編集2016/08/06 13:14

下記プログラムを書いてみたのですが、うまく動きません。実行するとエラーも表示されず、何が起こっているのか?何が足りないのか?がわからず行き詰まっています。

下記がコードになります。

php

1<?php 2function curl_url($url,$ref="") 3 { 4 if(function_exists("curl_init")) 5 { 6 $ch_init = curl_init(); 7 $user_agent = "Mozilla/4.0 (compatible; MSIE 5.01; "."Windows NT 5.0)"; 8 $ch_init = curl_init(); 9 curl_setopt($ch_init, CURLOPT_USERAGENT, $user_agent); 10 curl_setopt( $ch_init, CURLOPT_HTTPGET, 1 ); 11 curl_setopt( $ch_init, CURLOPT_RETURNTRANSFER, 1 ); 12 curl_setopt( $ch_init, CURLOPT_FOLLOWLOCATION , 1 ); 13 curl_setopt( $ch_init, CURLOPT_FOLLOWLOCATION , 1 ); 14 curl_setopt( $ch_init, CURLOPT_URL, $url ); 15 curl_setopt( $ch_init, CURLOPT_REFERER, $ref ); 16 curl_setopt ($ch_init, CURLOPT_COOKIEJAR, 'cookie.txt'); 17 $html = curl_exec($ch_init); 18 curl_close($ch_init); 19 } 20 else 21 { 22 $hfile = fopen($url,"r"); 23 if($hfile) 24 { 25 while(!feof($hfile)) 26 { 27 $html.=fgets($hfile,1024); 28 } 29 } 30 } 31 return $html; 32 } 33 34$url='http://www.amazon.com/s/ref=sr_nr_p_72_0?rh=n%3A172282%2Ck%3Aiphone+5s%2Cp_72%3A1248879011&keywords=iphone+5s&ie=UTF8&qid=1406078696&rnid=1248877011'; 35$getelement = curl_url($url); 36preg_match_all ("/a[\s]+[^&amp;gt;]*?href[\s]?=[\s\"\']+"."(.*?)[\"\']+.*?&amp;gt;"."([^&amp;lt;]+|.*?)?&amp;lt;\/a&amp;gt;/", $getelement, $matches,PREG_PATTERN_ORDER); 37$matches = $matches[1]; 38$list = array(); 39 foreach($matches as $var) 40 { 41 print_r($var."\n"); 42 } 43 44?>

本来ならpreg_match_allでマッチしたいくつかURLが表示されるはずなのですが、なぜ上記コードだとうまく動かないか、どなかたお分かりになられないでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

A.Ichi

2016/08/02 00:40

curlの設定はご確認しましたでしょうか? php -i | grep cURL にて確認できます。 であればhtml取得までは、出来ています。 $response = curl_getinfo( $ch_init ); print_r($response); で戻りを確認されてはいかがでしょうか?
tuckQ

2016/08/02 12:32

コメントいただきありがとうございます。cURL support => enabled cURL Information => 7.43.0という結果が得られました。その上で、$response = curl_getinfo( $ch_init ); print_r($response); を実行してみたところ、以下のエラーが発生しました。「Notice: Undefined variable: ch_init in /Applications/MAMP/htdocs/parser/asin.php on line 2 Warning: curl_getinfo() expects parameter 1 to be resource, null given in /Applications/MAMP/htdocs/parser/asin.php on line 2」 環境の設定自体があやしい感じなのでしょうか?
A.Ichi

2016/08/02 12:46

すみません入れる場所を、お教えしてませんでした。 $response = curl_getinfo( $ch_init ); print_r($response); は、curl_close($ch_init);の前に置いて実行してください。
tuckQ

2016/08/06 02:31

再度ありがとうございます。教えて頂いた方法で連想配列の返り値が得られました!「function curl_url」関数の中の処理は概ね理解できたかと思います。preg_match_all 以下の処理がどうなっているのか未だちゃんとイメージできておらず、もう少し研究してみます!
kei344

2016/08/06 06:19

まだ質問が「受付中」になっていますが、いったん「解決済」にされてはいかがでしょうか。
tuckQ

2016/08/06 12:58

はい。おおよそ仕組みが分かったので「解決済」とさせていただきます。
guest

回答2

0

ベストアンサー

何が起こっているのか?何が足りないのか?を切り分けてみては?
通信内容を確認すれば切り分けられると思います。
あと、他者の管理するサイトを機械的にアクセスするのであれば、迷惑かけないようにプログラムをちゃんと理解した方がいいですよ。
このスクリプト自体は、無茶なアクセスする内容ではない上、相手が amazon なので、それほど影響はないと思いますが。。。

投稿2016/08/01 14:07

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tuckQ

2016/08/02 12:10

var_dump()など使ってどこまで処理が進んでいるか調べるということでしょうか?コードを分解しての確認はまだでしたので、試してみようと思います。アドバイスありがとうございました!
tuckQ

2016/08/02 22:20

スクレイプ系プログラムを使う場合、しっかりした理解が必要とのこと承知しました。こちらのアドバイスもありがとうございました!
退会済みユーザー

退会済みユーザー

2016/08/03 02:56

通信内容の確認方法が分かるぐらいには学習して下さい。スクレイピングの基本です。 ヒントは A.Ichi さんが示してくれています。 本来なら、他者管理のサーバへの負荷をかけずに、まず基本部分を完成させるため、受信する予定のダミーデータを用意して、その結果、予定通りの機能実装が完成したと確認が取れた後、curl部分を動かす手順を踏むべきなので、そのあたりのやり方も学習されるとイイと思います。
tuckQ

2016/08/06 02:35

本来、スクレイピングのテストは自前環境で行うべきなのですね。。サーバにかかる負荷のことを全く認識できてませんでした。通信内容の確認方法を含め学習進めてみようと思います。
退会済みユーザー

退会済みユーザー

2016/08/06 04:37

今回のケースでは、通信自体は正常のようです。 echo $getelement; すると原因がわかると思います。
tuckQ

2016/08/06 12:53

ようやく原因が分かりました。ロボットチェックが表示されているんですね。いわんや、ロボットでアクセスしちゃダメってことですよね。スクレイピングについてはちょっと考えます。いろいろ参考になりました、ありがとうございます!
guest

0

コードは で囲ってください。

preg_matchに渡している文字列の中身がHTMLエンコードされていますが(リンク先も含め)、これはHTMLエンコードしてるとURLに一致してないように見えますがいかがでしょうか?

投稿2016/08/01 13:55

moonphase

総合スコア6621

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tuckQ

2016/08/02 12:21

コメントありがとうございます!preg_matchの仕様については、リファレンスなどを見てある程度学習したのですが、ご指摘いただいた「HTMLエンコードされている」「URLと不一致」のあたりの理解が出来ておりません。。。preg_matchの部分に問題がありそうなことは分かったので、ここにフォーカスして調べてみようと思います!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問