teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

2

画像追加

2018/10/03 12:44

投稿

moment_now_love
moment_now_love

スコア9

title CHANGED
File without changes
body CHANGED
@@ -65,4 +65,7 @@
65
65
  質問
66
66
  ---
67
67
  0. なぜ正確にHTMLを正確に読み込めないのか?
68
- 0. どのようにすれば読み込めるようになるのか?
68
+ 0. どのようにすれば読み込めるようになるのか?
69
+
70
+ 以下のようになってしまいます。
71
+ ![イメージ説明](fe2fb24db9f2417154fcc08bfe5ed538.jpeg)

1

説明の追加と文章追加

2018/10/03 12:44

投稿

moment_now_love
moment_now_love

スコア9

title CHANGED
File without changes
body CHANGED
@@ -1,16 +1,40 @@
1
+ ### 実現したいこと
1
- JAVAを使いURLからhtmlを読み込みたいです。
2
+ **JAVAを使いURLからhtmlを読み込みたいです。**
3
+ 説明
4
+ ---
2
5
  以下のソースコードを実行したところ、簡単なサイトのhtmlは読み込めるのですが、ヤフーなどの複雑なサイトのhtmlを正確に読み取ることができません。
6
+ 正確に読み取れないとは以下のソースコードならば最後の行の「<meta property="og:title" content="Yahoo! JAPAN"><meta property="og:type" content="article">」
3
- 1.なぜ読み込めないの
7
+ この部分が読み込めなかったりします。
4
- 2・どのようにすれば読み込めるようになるのか?
5
8
 
9
+ ```ここに言語を入力
10
+ <html lang="ja">
6
- ご回答よろしくお願いします。
11
+ <head>
12
+ <meta http-equiv="content-type" content="text/html; charset=utf-8">
13
+ <meta http-equiv="content-style-type" content="text/css">
14
+ <meta http-equiv="content-script-type" content="text/javascript">
15
+ <meta name="description" content="日本最大級のポータルサイト。検索、オークション、ニュース、天気、スポーツ、メール、ショッピングなど多数のサービスを展開。あなたの生活をより豊かにする「課題解決エンジン」を目指していきます。">
16
+ <meta name="robots" content="noodp">
17
+ <meta name="google-site-verification" content="fsLMOiigp5fIpCDMEVodQnQC7jIY1K3UXW5QkQcBmVs">
18
+ <link rel="alternate" href="android-app://jp.co.yahoo.android.yjtop/yahoojapan/home/top">
19
+ <link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.yahoo.co.jp/">
20
+ <link rel="canonical" href="https://www.yahoo.co.jp/" />
21
+ <meta property="og:title" content="Yahoo! JAPAN"><meta property="og:type" content="article">
22
+ ```
7
23
 
24
+ 以下はURLからソースコードを習得するプログラムです
25
+ ```ここに言語を入力
26
+ import java.io.InputStream;
27
+ import java.io.InputStreamReader;
28
+ import java.net.URL;
29
+
30
+ public class Hero {
31
+
8
- public static void main(final String[] args){
32
+ public static void main(final String[] args){
9
33
  URL url = null;
10
34
  InputStreamReader isr = null;
11
35
 
12
36
  try {
13
- url = new URL("https://www.yahoo.co.jp/");
37
+ url = new URL("[リンク内容](https://www.yahoo.co.jp/)");
14
38
 
15
39
  // InputStream(バイトストリーム)のままでもHTMLは取得できるが文字化けする
16
40
  InputStream is = url.openStream();
@@ -36,4 +60,9 @@
36
60
  }
37
61
  }
38
62
 
39
- }
63
+ }
64
+ ```
65
+ 質問
66
+ ---
67
+ 0. なぜ正確にHTMLを正確に読み込めないのか?
68
+ 0. どのようにすれば読み込めるようになるのか?