rebots.txtはすでに設定されていますよね?
ご存知かもしれませんが、
スクレイパー側はページ上のどんな動きも偽装することができてしまいます。
そのため、どのリクエストが悪質なものなのか特定するのは正直難しいかと思います。
それでもご参考までに、、
私なら以下のようにスクレイピングの対処します。
・まず、/jail.htmlというページを用意する
・robots.txtで、このページにアクセスできないようにする
(こうすれば、通常のユーザがjail.htmlページにいってしまうことはありません)。
・ページにリンクを張り、かつCSSでリンクが見えないようにしておく(display:noneとすればいいでしょう)。
・jailのページを訪問したユーザのIPアドレスを記録する
上記のようにすることで、悪質ユーザ/クローラーによるスクレイピングを
認識することが可能になります。
さらに、/jail.htmlのページを元々のサイトと全く同じ
HTML・CSSのマークアップの構成にしておき、ダミーデータを置いておくという方法もあります。
こうすれば、悪質ユーザが気づく前にあらかじめブロックしてしまうことができるはずです。
当然ですがGoogleなど検索エンジンのクローラーをブロックしないよう気をつけてください。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。