質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

サーバ

サーバは、 クライアントサーバモデルにおいてクライアントからの要求に対し 何らかのサービスを提供するプログラムを指す言葉です。 また、サーバーソフトウェアを稼動させているコンピュータ機器そのもののことも、 サーバーと呼ぶ場合もあります。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

1761閲覧

XAMMPではスクレイピングできるのにサーバーにプログラムをあげるとスクレイピングできなくなります。

yonaja

総合スコア20

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

サーバ

サーバは、 クライアントサーバモデルにおいてクライアントからの要求に対し 何らかのサービスを提供するプログラムを指す言葉です。 また、サーバーソフトウェアを稼動させているコンピュータ機器そのもののことも、 サーバーと呼ぶ場合もあります。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2018/09/29 07:36

昨日も質問したんですけど、プログラミングの勉強を兼ねて様々なECサイトから、価格を商品のタイトルを取得するツールを作ろうとしています。

それで、プログラムを作りはXAMPPを使ってタイトルを取得することができたんですが、私の契約しているxserverにアップロードして動かすとタイトルを取得されないというエラーが発生しました。

楽天市場以外のサイトからスクレイピングするプログラムはXAMPP、xserver同様に正しく動作するんですが楽天市場のスクレイピングプログラムだけがサーバー上だとタイトルを取得できません。

サーバー上で動かしたときも、エラーメッセージなどはでないためプログラムがサーバー上にアップロードされたときに欠損したなどは考えにくいです。

何が原因か調べるためにvar_dumpを使って中身を調べたところ、サーバー上のプログラムではデータの取得ができていないようです。

何かアドバイスいただけませんか。

以下にプログラムと出力結果を載せておきます。

Mainaction.php

php

1<?php 2require_once './actions/title.php'; 3 4function h($str) { 5 return htmlspecialchars($str, ENT_QUOTES, 'UTF-8'); 6} 7 8 9# $_GET['q'] を文字列として受け取る (未定義の場合は空文字列になる) 10//$keyword = (string)filter_input(INPUT_GET, 'keyword'); 11$keyword = 'PS4 本体'; 12$page = 1; 13$num = 0; 14 15# $_GET['q'] が空文字列でなかった場合にのみ検索を行う 16 if ($keyword !== '') { 17 // コンテンツを取得 18 $ch = curl_init(); 19 curl_setopt_array($ch, [ 20 CURLOPT_URL => 'https://search.rakuten.co.jp/search/mall/' . urlencode($keyword) . '/?used=1&p='.$page, 21 CURLOPT_RETURNTRANSFER => true, 22 CURLOPT_FOLLOWLOCATION => true, 23 CURLOPT_AUTOREFERER => true, 24 CURLOPT_USERAGENT => 'Mozilla/5.0', 25 CURLOPT_ENCODING => 'gzip', 26 ]); 27 $html = curl_exec($ch); 28 // エラーを出さずにDOMDocumentに読み込む 29 $dom = new DOMDocument; 30 @$dom->loadHTML($html); 31 32 // DOMDocumentからXPath式を実行するためのDOMXPathを生成 33 $xpath = new DOMXPath($dom); 34 } 35 36# $_GET['q'] が空文字列でなかった場合にのみ検索を行う 37if ($keyword !== '') { 38 39 $title=titlesearch($xpath,$keyword,$page); 40} 41 42foreach ($title as $a) { 43 var_dump($a); 44 echo '<br />'; 45 $rakutenitems[$num]['title'] = $a; 46 $num = $num + 1; 47 48} 49 50 return $rakutenitems; 51 52?> 53

/actions/title.php

php

1<?php 2 3function titlesearch($xpath,$keyword,$page) 4{ 5 6 for ($i=0; $i < 20; $i++) { 7 $ii = $i +1; 8 $li = $xpath->query('/html/body/div[3]/div[2]/div[3]/div')->item(0); 9 $title[$i] = $xpath->evaluate('string(.//div['.$ii.']/div[3]/h2/a)', $li); 10 11 } 12 13return $title; 14} 15?>

ローカル環境(XAMPP)で実行したときの出力
イメージ説明

サーバー上で実行したときの出力
イメージ説明

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

楽天市場のスクレイピングプログラムだけがサーバー上だとタイトルを取得できません。

おそらく、楽天市場の側で、XSERVERからのアクセスを遮断していると思われます。そうであれば、XSERVERに置く限りどうしようもありません。

投稿2018/09/29 07:57

maisumakun

総合スコア145183

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yonaja

2018/09/29 08:05

回答ありがとうございます。 うすうす感じていましたがやはりそうなのですね。 当面はローカル環境で開発することにします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問