質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Webサーバー

Webサーバーとは、HTTPリクエストに応じて、クライアントに情報を提供するシステムです。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

2回答

3706閲覧

Webスクレイピングについて教えていただけないでしょうか?

dlrowolleh

総合スコア120

Webサーバー

Webサーバーとは、HTTPリクエストに応じて、クライアントに情報を提供するシステムです。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2016/10/12 11:33

編集2016/10/13 12:25

お世話になります。
Webスクレイピングをするにあたっての知識などについて知りたいと思っており、質問させていただきます。

###前提
スクレイピングするサイトには、RSSやAPIが提供されていません。
(APIやRSSが提供されていなかったため、スクレイピング・保存をしようという考えに至った次第であります。)
###試したこと

  1. `wget -r -l1 http://www.example.com/hogehoge.php?Number=0123456

だと、カレントディレクトリにexample.comディレクトリが作成され、その中に hogehoge.php?Number=0123456
hogehogeTitle.php?Number=0123456
hogehogeTable.php?Number=0123456
`
が保存されます。

  1. wget -r -l1 -A .php http://www.example.com

だとexample.comディレクトリが作成されるだけで、中身が空になります。
そして、

拒否すべきなので、hogehoge.php?Number=0123456 を削除しました。 拒否すべきなので、hogehogeTitle.php?Number=0123456 を削除しました。 拒否すべきなので、hogehogeTable.php?Number=0123456 を削除しました。 ```と、気になるメッセージが表示されます。 この原因は何でしょうか? 0. `export LANG=ja_JP.UTF-8; wget -w10 -nd -l1 -r -O /home/hoge/Desktop/2016/sample/html/田中/$(date '+%Y_%m_%d_%H:').html http://www.example.com ` と実行すると、`/home/hoge/Desktop/2016/sample/html/田中/`に実行した時の`年月日.html`が一つ作成されファイルの内容は、 `hogehoge.php?Number=0123456 hogehogeTitle.php?Number=0123456 hogehogeTable.php?Number=0123456 ` のファイルの中身を全部まとめたものになっています。 そして、

警告: -r や -p と -O を一緒に使うと、ダウンロードした内容は、
全て指定された一つのファイルに入ることを意味します。
(省略)
robots.txtを読み込んでいます、エラーは無視してください。
(ドメイン名やIPアドレス名):80 に接続しています... 接続しました。
HTTP による接続要求を送信しました、応答を待っています... 404 Not Found
実行年月日 エラー 404: Not Found。
HTTP による接続要求を送信しました、応答を待っています... 200 OK
長さ: 容量 (容量K) [text/html]
`/home/hoge/Desktop/2016/sample/html/田中/年月日.html' に保存中

0K ....... 100%
と気になるメッセージが表示されます。 ###疑問点 - ```-A .php```と```-A```オプションを追加しただけでディレクトリは作られたものの、中身は空になった原因は何だと考えられるでしょうか? - `hogehoge.php?Number=0123456`と`hogehogeTitle.php?Number=0123456`は要りません。 `hogehogeTable.php?Number=0123456`だけを`/home/hoge/Desktop/2016/sample/html/田中/`保存したいのですが、どのようにすればいいでしょうか? - ウェブページには、 0. ステートレスなページ 0. ステートフルなページ 0. javascript等によってクライアント側でページを組み立てるタイプのページ 等があるとのことですが、このページはどれに該当すると考えられるでしょうか? また、 - webページには`robot.txt`というものがあると聞いたことがあるのですが、このサイトには`robot.txt`があると考えられますか? (この`HTTP による接続要求を送信しました、応答を待っています... 404 Not Found`は何が見つからなかったのか。`webページ`?`robot.txt`?仮にwebページだとすると`404 Not Found`なのにデータを保存できるじゃないか!仮に`robot.txt`だとすると`404 Not Found`なのに`拒否すべきなので削除しました`robot.txtがあるじゃないか!) - `robot.txt`はどこにあると考えられるでしょうか? - `robot.txt`にどんなことが書いてあるか見たいのですが、どうすれば見られるでしょうか?(そもそも`robot.txt`は閲覧可能か?) - 相手に負荷をかけないスクレイピングをするための遅延処理はどのくらいが適切でしょうか?(サイトにより差があると思われるが、それを知る方法はないか?、常識のある人間がブラウザを使用して閲覧する場合、相手にかける負荷はどのくらいと言われているか?) ###補足情報(言語/FW/ツール等のバージョンなど) ubuntu15.10の環境です。 長文失礼しました。迷走しております。 内容に不足があれば追記します。 何卒よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

お勧めの書籍

下記の書籍に色々情報がありますので、お勧めです。

「Spidering hacks―ウェブ情報ラクラク取得テクニック101選」

頑張ってください。

投稿2016/10/16 14:12

nagaetty

総合スコア1106

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

wget の -A については、suffix として、判断されていて、一致しないから削除されているのだと思います。
機能については、マニュアルを読んでオプションの意味を理解するようにしましょう。

具体的なサイトがわからないので、サイトの形態については、判断できないです。

あと、robots.txt ですね。
サイトのルートにあります。

普通にブラウザでひらけます。例えば、teratail の場合、
https://teratail.com/robots.txt
です。

投稿2016/10/13 22:45

編集2016/10/13 22:51
CHERRY

総合スコア25171

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

dlrowolleh

2016/10/14 04:47

はじめまして。 ご回答いただきましてありがとうございます。 ドメイン/robots.txt でやってみたのですが、 Not Found The requested URL /robots.txt was not found on this server. と返ってきました。 気がついた点なのですが、 ドメインにwwwがついていません。 firefoxのタブには http:// や https:// が表示されず、 ドメイン.jp だけ表示されています。 …どうなっているのでしょうか?? 知識が足りず、二進も三進もいきません。 何卒ご教授いただけましたら幸いです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問