スクレイピングは、お手軽にコンテンツが作成できるようになるためか、利用したいという要求をなかなかおさえることが出来ません。
個人的にはスクレイピングによる被害を被ったこともあり、スクレイピング慎重派なのですが、私の考慮できる範囲は、個人商店レベルなので、きちんとした業務レベルで利用されている方々の知見をいただければと考えました。
つきましては、スクレイピングにおける技術ポイントや注意点等を教わりたいです。
私の考えるポイントは以下のとおりです。(思いつきで書いてます。すみません^^;)
不足点の指摘やご意見をいただけないでしょうか。
企画
・そもそもスクレイピング先に迷惑をかけないか?
・コンテンツを引用の範囲以上で使用する事になっていないか?
盗用になっていないか?加工後に付加価値がつけられるか?
・スクレイピング先へのアクセスを阻害する企画になっていないか?
コンテンツ引用等で、同じターゲットを取り合いになっていないか?
・スクレイピング先のサイトポリシーに違反する違反する内容になっていないか?
利用の制限に抵触していないか?2次利用が禁止されていないか?機械アクセスを禁止していないか?等
設計
・アクセス頻度は適切か?
通常のユーザアクセスと同程度のアクセスとなっているか?
・アクセスで不具合を起こさせてしまったときの連絡方法を確立できているか?
UAで知らせる等の実装は出来ているか?
・取得情報のばらつきに対しての処理は許容できる範囲か?
・使用するライブラリがあれば、その実績や機能に問題はないか?
構築/テスト
・実装としてアクセスは必要最小限となっているか?
キャッシュを取るとか。
・テスト段階ではローカルでテストできるように準備しているか?
データの加工処理を行う部分はちゃんとローカルでテスト出来ているか。
・使用するライブラリの仕様を把握しているか?
おかしなアクセスや内部でのループ処理が入っていないか?
・取得情報のばらつきに対して適切な回避処理や補完処理を行えているか?
運用
・エラー等の監視が必要十分に出来ているか?
ある程度ご意見いただけたら、Qiitaとかにまとめようと思っています。
回答3件
あなたの回答
tips
プレビュー