実現したいこと
・スクレイピング可能なサイトの見分け方について教えて頂きたいです。
前提
利用規約などを見てスクレイピングが可能なサイトか、否か、見分けているのですが、初心者なので本当にスクレイピングしていいサイトなのか不安です。
試したこと
調べて、robots.txtを使い、そのサイトのスクレイピング可能か否か判断する。という記事を見ました。
例えば、アマゾンのサイトURL+robots.txtをやってみると、「許可しない」という文字がいっぱい出てきて禁止サイトなのだと判断しました。
ですが、サイトURL+robots.txtで検索してもページが見つかりません。という表示だけでなにも出てこないサイトがあります。
例えば、国土交通省とかでやってみると、うまく表示ができませんでした。
国土交通省の利用規約を見ると、スクレイピングをしても良いみたいな文面は書いてあり、おそらく可能なサイトだとは思うのですが、利用規約を見る以外で、可能か禁止か確認する方法を教えて頂きたいです。
ここに問題に対して試したことを記載してください。
補足情報
スクレイピング可能なサイト、禁止のサイト、皆さんはどのように確認をしているのでしょうか?
是非、ご教授いただきたいです。