teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

1

元の質問が不適切でしたので、関連した質問に編集しました。

2018/09/19 06:39

投稿

rim08
rim08

スコア6

title CHANGED
@@ -1,1 +1,1 @@
1
- javaでhttps取得したい
1
+ bingの検索結果スクレイピングしたい
body CHANGED
@@ -1,44 +1,22 @@
1
- 英語bingの検索結果のhtml取得たいが、指定たURLのページのソースとは異なったソースが返されしまいます。解決法を授お願致します。
1
+ 日本版bingの検索結果をスクレイピングてそ情報を解析る行為に関して的に問題があるかどうかを教えてただきたいです。
2
2
 
3
+ 自分で調べた限りでは、法に触れる心配のある事項は
4
+ ・著作権
5
+ ・不法行為責任(アクセスを制限する措置を破った場合)
6
+ ・偽計業務妨害罪(サーバーに大きな負荷をかけた場合)
3
- ```java
7
+ ・利用規約
4
- 英語版bing検索結果のhttpを取得したいのです、以下のコードでは指定したURLのページソースと違うものが返されますどうしたら本来のhtmlを取得できますか。
8
+ 4つありあした。
5
9
 
6
- import java.io.*;
10
+ ・著作権について
7
- import java.net.*;
11
+ 著作権法第47条の7にて、情報解析のため必要と認められる限度において、著作権物を複製できるとあるので今回は問題ないと判断しました。
8
12
 
9
- class Sample{
13
+ ・不法行為責任について
10
- public static void main(String[] args){
11
- try{
12
- Sample sample = new Sample(new URL("https://www.bing.com/search?q=Sample&setmkt=en-us&setlang=en-us"));
13
- }
14
- catch(MalformedURLException ex){
14
+ 日本版bingでは、アクセスを制限する措置を確認できませんでした。
15
- ex.printStackTrace();
16
- }
17
15
 
18
- }
19
- Sample(URL url){
20
- String html = "";
21
- String line;
16
+ ・偽計業務妨害罪について
22
- try{
23
- URLConnection uc = url.openConnection();
24
- BufferedInputStream bis = new BufferedInputStream(uc.getInputStream());
25
- BufferedReader br = new BufferedReader(new InputStreamReader(bis,"utf-8"));
26
- while((line = br.readLine()) != null){
27
- html += (line + "\n");
28
- }
29
- }
30
- catch(MalformedURLException ex){
31
- ex.printStackTrace();
32
- }
33
- catch(UnknownHostException ex){
34
- ex.printStackTrace();
35
- }
36
- catch(IOException ex){
37
- ex.printStackTrace();
38
- }
39
- System.out.println(html);
40
- }
41
- }
42
- ```
43
- 日本語版bingでの検索結果のhtmlは問題なく取得できていました。
17
+ アクセスに十分な間隔を開ければ問題ないと判断しました。
18
+
19
+ ・利用規約について
20
+ 利用規約の内容はユーザーが同意して効力を持つので同意する行為をなしに利用できるbingではアカウントを持たなければ問題ないと判断しました(マナー的に行うべきでないことは理解しています)。
21
+
44
- 、検索するワード時間帯によって正く取得できときもりま
22
+ 誤っ見落とてい点がればご指摘お願います