お世話になります。
Webスクレイピングをするにあたっての知識などについて知りたいと思っており、質問させていただきます。
###前提
スクレイピングするサイトには、RSSやAPIが提供されていません。
(APIやRSSが提供されていなかったため、スクレイピング・保存をしようという考えに至った次第であります。)
###試したこと
- `wget -r -l1 http://www.example.com/hogehoge.php?Number=0123456
だと、カレントディレクトリに
example.comディレクトリが作成され、その中に
hogehoge.php?Number=0123456
hogehogeTitle.php?Number=0123456
hogehogeTable.php?Number=0123456
`
が保存されます。
wget -r -l1 -A .php http://www.example.com
だとexample.com
ディレクトリが作成されるだけで、中身が空になります。
そして、
拒否すべきなので、hogehoge.php?Number=0123456 を削除しました。 拒否すべきなので、hogehogeTitle.php?Number=0123456 を削除しました。 拒否すべきなので、hogehogeTable.php?Number=0123456 を削除しました。 ```と、気になるメッセージが表示されます。 この原因は何でしょうか? 0. `export LANG=ja_JP.UTF-8; wget -w10 -nd -l1 -r -O /home/hoge/Desktop/2016/sample/html/田中/$(date '+%Y_%m_%d_%H:').html http://www.example.com ` と実行すると、`/home/hoge/Desktop/2016/sample/html/田中/`に実行した時の`年月日.html`が一つ作成されファイルの内容は、 `hogehoge.php?Number=0123456 hogehogeTitle.php?Number=0123456 hogehogeTable.php?Number=0123456 ` のファイルの中身を全部まとめたものになっています。 そして、
警告: -r や -p と -O を一緒に使うと、ダウンロードした内容は、
全て指定された一つのファイルに入ることを意味します。
(省略)
robots.txtを読み込んでいます、エラーは無視してください。
(ドメイン名やIPアドレス名):80 に接続しています... 接続しました。
HTTP による接続要求を送信しました、応答を待っています... 404 Not Found
実行年月日 エラー 404: Not Found。
HTTP による接続要求を送信しました、応答を待っています... 200 OK
長さ: 容量 (容量K) [text/html]
`/home/hoge/Desktop/2016/sample/html/田中/年月日.html' に保存中
0K ....... 100%
と気になるメッセージが表示されます。 ###疑問点 - ```-A .php```と```-A```オプションを追加しただけでディレクトリは作られたものの、中身は空になった原因は何だと考えられるでしょうか? - `hogehoge.php?Number=0123456`と`hogehogeTitle.php?Number=0123456`は要りません。 `hogehogeTable.php?Number=0123456`だけを`/home/hoge/Desktop/2016/sample/html/田中/`保存したいのですが、どのようにすればいいでしょうか? - ウェブページには、 0. ステートレスなページ 0. ステートフルなページ 0. javascript等によってクライアント側でページを組み立てるタイプのページ 等があるとのことですが、このページはどれに該当すると考えられるでしょうか? また、 - webページには`robot.txt`というものがあると聞いたことがあるのですが、このサイトには`robot.txt`があると考えられますか? (この`HTTP による接続要求を送信しました、応答を待っています... 404 Not Found`は何が見つからなかったのか。`webページ`?`robot.txt`?仮にwebページだとすると`404 Not Found`なのにデータを保存できるじゃないか!仮に`robot.txt`だとすると`404 Not Found`なのに`拒否すべきなので削除しました`robot.txtがあるじゃないか!) - `robot.txt`はどこにあると考えられるでしょうか? - `robot.txt`にどんなことが書いてあるか見たいのですが、どうすれば見られるでしょうか?(そもそも`robot.txt`は閲覧可能か?) - 相手に負荷をかけないスクレイピングをするための遅延処理はどのくらいが適切でしょうか?(サイトにより差があると思われるが、それを知る方法はないか?、常識のある人間がブラウザを使用して閲覧する場合、相手にかける負荷はどのくらいと言われているか?) ###補足情報(言語/FW/ツール等のバージョンなど) ubuntu15.10の環境です。 長文失礼しました。迷走しております。 内容に不足があれば追記します。 何卒よろしくお願いします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。