質問編集履歴

1

元の質問が不適切でしたので、関連した質問に編集しました。

2018/09/19 06:39

投稿

rim08
rim08

スコア6

test CHANGED
@@ -1 +1 @@
1
- javaでhttps取得したい
1
+ bingの検索結果スクレイピングしたい
test CHANGED
@@ -1,87 +1,43 @@
1
- 英語bingの検索結果のhtml取得たいが、指定たURLのページのソースとは異なったソースが返されしまいます。解決法を授お願致します。
1
+ 日本版bingの検索結果をスクレイピングてそ情報を解析る行為に関して的に問題があるかどうかを教えてただきたいです。
2
2
 
3
3
 
4
4
 
5
- ```java
5
+ 自分で調べた限りでは、法に触れる心配のある事項は
6
6
 
7
+ ・著作権
8
+
7
- 英語版bingの検索結果のhttp取得したいのでが、以下のコードでは指定しURLのページソースと違うものが返されます。どうしたら本来のhtmlを取得できますか。
9
+ ・不法行為責任(アクセス制限る措置を破っ場合)
10
+
11
+ ・偽計業務妨害罪(サーバーに大きな負荷をかけた場合)
12
+
13
+ ・利用規約
14
+
15
+ の4つがありあした。
8
16
 
9
17
 
10
18
 
11
- import java.io.*;
19
+ ・著作権について
12
20
 
13
- import java.net.*;
21
+ 著作権法第47条の7にて、情報解析のため必要と認められる限度において、著作権物を複製できるとあるので今回は問題ないと判断しました。
14
22
 
15
23
 
16
24
 
17
- class Sample{
25
+ ・不法行為責任について
18
26
 
19
- public static void main(String[] args){
20
-
21
- try{
22
-
23
- Sample sample = new Sample(new URL("https://www.bing.com/search?q=Sample&setmkt=en-us&setlang=en-us"));
24
-
25
- }
26
-
27
- catch(MalformedURLException ex){
27
+ 日本版bingでは、アクセスを制限する措置を確認できませんでした。
28
-
29
- ex.printStackTrace();
30
-
31
- }
32
28
 
33
29
 
34
30
 
35
- }
31
+ ・偽計業務妨害罪について
36
32
 
37
- Sample(URL url){
33
+ アクセスに十分な間隔を開ければ問題ないと判断しました。
38
34
 
39
- String html = "";
40
35
 
41
- String line;
42
36
 
43
- try{
37
+ ・利用規約について
44
38
 
45
- URLConnection uc = url.openConnection();
39
+ 利用規約の内容はユーザーが同意して効力を持つので同意する行為をなしに利用できるbingではアカウントを持たなければ問題ないと判断しました(マナー的に行うべきでないことは理解しています)。
46
40
 
47
- BufferedInputStream bis = new BufferedInputStream(uc.getInputStream());
48
41
 
49
- BufferedReader br = new BufferedReader(new InputStreamReader(bis,"utf-8"));
50
42
 
51
- while((line = br.readLine()) != null){
52
-
53
- html += (line + "\n");
54
-
55
- }
56
-
57
- }
58
-
59
- catch(MalformedURLException ex){
60
-
61
- ex.printStackTrace();
62
-
63
- }
64
-
65
- catch(UnknownHostException ex){
66
-
67
- ex.printStackTrace();
68
-
69
- }
70
-
71
- catch(IOException ex){
72
-
73
- ex.printStackTrace();
74
-
75
- }
76
-
77
- System.out.println(html);
78
-
79
- }
80
-
81
- }
82
-
83
- ```
84
-
85
- 日本語版bingでの検索結果のhtmlは問題なく取得できていました。
86
-
87
- 、検索するワード時間帯によっ正しく取得できときもした
43
+ 誤っ見落とし点がればご指摘お願いし