Webスクレイピングについて教えていただけないでしょうか？

お世話になります。
Webスクレイピングをするにあたっての知識などについて知りたいと思っており、質問させていただきます。

###前提
スクレイピングするサイトには、RSSやAPIが提供されていません。
（APIやRSSが提供されていなかったため、スクレイピング・保存をしようという考えに至った次第であります。）
###試したこと

`wget -r -l1 http://www.example.com/hogehoge.php?Number=0123456

だと、カレントディレクトリにexample.comディレクトリが作成され、その中に hogehoge.php?Number=0123456
hogehogeTitle.php?Number=0123456
hogehogeTable.php?Number=0123456
`
が保存されます。

wget -r -l1 -A .php http://www.example.com

だとexample.comディレクトリが作成されるだけで、中身が空になります。
そして、

拒否すべきなので、hogehoge.php?Number=0123456 を削除しました。
拒否すべきなので、hogehogeTitle.php?Number=0123456 を削除しました。
拒否すべきなので、hogehogeTable.php?Number=0123456 を削除しました。

```と、気になるメッセージが表示されます。
この原因は何でしょうか？

0. `export LANG=ja_JP.UTF-8; wget -w10 -nd -l1 -r -O /home/hoge/Desktop/2016/sample/html/田中/$(date '+%Y_%m_%d_%H:').html http://www.example.com
`
と実行すると、`/home/hoge/Desktop/2016/sample/html/田中/`に実行した時の`年月日.html`が一つ作成されファイルの内容は、
`hogehoge.php?Number=0123456
hogehogeTitle.php?Number=0123456
hogehogeTable.php?Number=0123456
`
のファイルの中身を全部まとめたものになっています。
そして、

警告: -r や -p と -O を一緒に使うと、ダウンロードした内容は、
全て指定された一つのファイルに入ることを意味します。
（省略）
robots.txtを読み込んでいます、エラーは無視してください。
（ドメイン名やIPアドレス名）:80 に接続しています... 接続しました。
HTTP による接続要求を送信しました、応答を待っています... 404 Not Found
実行年月日エラー 404: Not Found。
HTTP による接続要求を送信しました、応答を待っています... 200 OK
長さ: 容量 (容量K) [text/html]
`/home/hoge/Desktop/2016/sample/html/田中/年月日.html' に保存中

 0K .......                                               100%

と気になるメッセージが表示されます。


###疑問点
 
-  ```-A .php```と```-A```オプションを追加しただけでディレクトリは作られたものの、中身は空になった原因は何だと考えられるでしょうか？

- `hogehoge.php?Number=0123456`と`hogehogeTitle.php?Number=0123456`は要りません。
`hogehogeTable.php?Number=0123456`だけを`/home/hoge/Desktop/2016/sample/html/田中/`保存したいのですが、どのようにすればいいでしょうか？

- ウェブページには、
0. ステートレスなページ
0. ステートフルなページ
0. javascript等によってクライアント側でページを組み立てるタイプのページ

等があるとのことですが、このページはどれに該当すると考えられるでしょうか？

また、
- webページには`robot.txt`というものがあると聞いたことがあるのですが、このサイトには`robot.txt`があると考えられますか？
（この`HTTP による接続要求を送信しました、応答を待っています... 404 Not Found`は何が見つからなかったのか。`webページ`？`robot.txt`？仮にwebページだとすると`404 Not Found`なのにデータを保存できるじゃないか！仮に`robot.txt`だとすると`404 Not Found`なのに`拒否すべきなので削除しました`robot.txtがあるじゃないか！）
- `robot.txt`はどこにあると考えられるでしょうか？
- `robot.txt`にどんなことが書いてあるか見たいのですが、どうすれば見られるでしょうか？（そもそも`robot.txt`は閲覧可能か？）

- 相手に負荷をかけないスクレイピングをするための遅延処理はどのくらいが適切でしょうか？（サイトにより差があると思われるが、それを知る方法はないか？、常識のある人間がブラウザを使用して閲覧する場合、相手にかける負荷はどのくらいと言われているか？）
###補足情報(言語/FW/ツール等のバージョンなど)
ubuntu15.10の環境です。


長文失礼しました。迷走しております。
内容に不足があれば追記します。
何卒よろしくお願いします。

行動規範の内容に同意します

回答2件

お勧めの書籍

下記の書籍に色々情報がありますので、お勧めです。

「Spidering hacks―ウェブ情報ラクラク取得テクニック101選」

頑張ってください。

投稿2016/10/16 14:12

nagaetty

総合スコア1106

wget の -A については、suffix として、判断されていて、一致しないから削除されているのだと思います。
機能については、マニュアルを読んでオプションの意味を理解するようにしましょう。

具体的なサイトがわからないので、サイトの形態については、判断できないです。

あと、robots.txt ですね。
サイトのルートにあります。

普通にブラウザでひらけます。例えば、teratail の場合、
https://teratail.com/robots.txt
です。

投稿2016/10/13 22:45

編集2016/10/13 22:51

CHERRY

総合スコア25171

dlrowolleh

2016/10/14 04:47

はじめまして。ご回答いただきましてありがとうございます。ドメイン/robots.txt でやってみたのですが、 Not Found The requested URL /robots.txt was not found on this server. と返ってきました。気がついた点なのですが、ドメインにｗｗｗがついていません。 firefoxのタブには http:// や https:// が表示されず、ドメイン.jp だけ表示されています。 …どうなっているのでしょうか？？知識が足りず、二進も三進もいきません。何卒ご教授いただけましたら幸いです。

行動規範の内容に同意します

あなたの回答