質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.22%

JAVAを使いURLからhtmlを読み込みたいです。

解決済

回答 3

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 4,812

 実現したいこと

JAVAを使いURLからhtmlを読み込みたいです。

説明

以下のソースコードを実行したところ、簡単なサイトのhtmlは読み込めるのですが、ヤフーなどの複雑なサイトのhtmlを正確に読み取ることができません。
正確に読み取れないとは以下のソースコードならば最後の行の「<meta property="og:title" content="Yahoo! JAPAN"><meta property="og:type" content="article">」
この部分が読み込めてなかったりします。

<html lang="ja">
<head>
<meta http-equiv="content-type" content="text/html; charset=utf-8">
<meta http-equiv="content-style-type" content="text/css">
<meta http-equiv="content-script-type" content="text/javascript">
<meta name="description" content="日本最大級のポータルサイト。検索、オークション、ニュース、天気、スポーツ、メール、ショッピングなど多数のサービスを展開。あなたの生活をより豊かにする「課題解決エンジン」を目指していきます。">
<meta name="robots" content="noodp">
<meta name="google-site-verification" content="fsLMOiigp5fIpCDMEVodQnQC7jIY1K3UXW5QkQcBmVs">
<link rel="alternate" href="android-app://jp.co.yahoo.android.yjtop/yahoojapan/home/top">
<link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.yahoo.co.jp/">
<link rel="canonical" href="https://www.yahoo.co.jp/" />
<meta property="og:title" content="Yahoo! JAPAN"><meta property="og:type" content="article">

以下はURLからソースコードを習得するプログラムです

import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;

public class Hero {

    public static void main(final String[] args){
        URL url = null;
        InputStreamReader isr = null;

        try {
            url = new URL("[リンク内容](https://www.yahoo.co.jp/)");

            // InputStream(バイトストリーム)のままでもHTMLは取得できるが文字化けする
            InputStream is = url.openStream();

            // InputStreamをUTF8のInputStreamReader(文字ストリーム)に変換する
            isr = new InputStreamReader(is,"UTF-8");

            // 一文字毎に読み込む
            while(true) {
                int i = isr.read();
                if (i == -1) {
                    break;
                }
                System.out.print((char)i);
            }
        }catch (Exception e) {
            System.out.println(e.getMessage());
        }finally {
            try {
                isr.close();
            }catch (Exception e) {
                System.out.println(e.getMessage());
            }
        }

    }

質問

  1. なぜ正確にHTMLを正確に読み込めないのか?
  2. どのようにすれば読み込めるようになるのか?

以下のようになってしまいます。
イメージ説明

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • m.ts10806

    2018/10/01 16:05

    「できていないこと」はもちろん明確にしていただいているので分かりますが「できていること・起きていること」を提示してください。問題の切り分けをしましょう。デバッグもしてください。

    キャンセル

  • dice142

    2018/10/01 16:06

    「読み込めない」とは「途中で例外が出る」のか「処理が最後まで続くか出力されない行がある」のかどちらでしょうか?また、提示されたHTMLの例からは「最後の行が読み取れない」のか「実際のyahooのHTMLでその行が読み取れない」のかどちらでしょうか?

    キャンセル

  • moment_now_love

    2018/10/03 20:39

    「処理が最後まで続くか出力されない行がある」、「実際のyahooのHTMLでその行が読み取れない」ということです!説明不足で申し訳ないです。

    キャンセル

回答 3

checkベストアンサー

+5

それっぽいユーザーエージェントを指定してみてはどうでしょうか?
おそらく「正確」にとは、ブラウザで表示されてるものと同等のものであること。
という定義だと推測しています。
ただ、noscriptとかは表示されてしまうかもしれません。

import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
public static void main(final String[] args) {
    URL url = null;
    InputStreamReader isr = null;

    try {
        url = new URL("https://www.yahoo.co.jp/");
        URLConnection urlcon = url.openConnection();
        urlcon.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0");

        // InputStream(バイトストリーム)のままでもHTMLは取得できるが文字化けする
        InputStream is = urlcon.getInputStream();

        // InputStreamをUTF8のInputStreamReader(文字ストリーム)に変換する
        isr = new InputStreamReader(is, "UTF-8");

        // 一文字毎に読み込む
        while (true) {
            int i = isr.read();
            if (i == -1) {
                break;
            }
            System.out.print((char) i);
        }
    } catch (Exception e) {
        System.out.println(e.getMessage());
    } finally {
        try {
            isr.close();
        } catch (Exception e) {
            System.out.println(e.getMessage());
        }
    }

}

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/04 09:39

    CSSが読み込めてないからじゃないですかね。
    取得されたHTMLには、href="//s.yimg.jp/images/top/sp2/clr/180312/1.css" のような感じで
    CSSのパスが指定されています。読んでみましたか?
    パスにスキーム部が指定されていませんね(http とか https)
    この場合、現在使われているスキームを使ってアクセスしようとします。
    おそらくあなたは、上記プログラムの結果をコンソールからコピーして、それをファイルに貼り付け、
    そのファイルをブラウザで開いてるのではないでしょうか?
    つまり、さきほどのCSSへのパスは file:///s.yimg.jp/images/top/sp2/clr/180312/1.css として
    アクセスしようとしているはずです。
    あなたのローカルにそのようなCSSファイルはあるはずもないため、レイアウトがくずれているだけだと思います。
    「JAVAを使いURLからhtmlを読み込みたいです。」という目的は達成しています。

    キャンセル

  • 2018/10/04 10:10

    取得したHTMLをファイルに貼り付けてブラウザで表示してみました。
    やはりCSSの読み込みができてなくて、多少そっけない感じにはなっていますが、
    誰が見てもYahooのトップページだと分かる程度には表示されてます。
    何か別のHTMLを表示しているのではないでしょうか?

    キャンセル

  • 2018/10/04 10:50

    詳しいご回答ありがとうございます。
    CSSを読み込むことができていなかったのですね。
    ありがとうございました。

    キャンセル

+1

一部の内容が取得できないと悩んでいるようですが、

$ curl 'https://www.yahoo.co.jp/'

というコマンドや、読み込んだ内容を全文出力してみるなどして直接HTMLを見てみましょう。
質問にあるような meta タグの部分はそもそもHTMLとして出力されていないことがわかります。

おそらくブラウザの開発者ツールなどでHTMLを確認したと思うのですが、JavaScriptによりレンダリングされるタグも表示されているのでご注意ください。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/01 16:22

    root_jpさんのUserAgentの方が正しいようですね。

    キャンセル

0

1.なぜ正確にHTMLを正確に読み込めないのか?

正確にHTMLを読み込めていると思います。サーバー側は誰にでも同じHTMLを返すのではなく、クライアントから送られてきたリクエストに対して、別のHTMLを(動的に生成して)返すことがあります。例えば同じURLを取得するにしても、日本語、英語など言語設定の違うクライアントには別の言語で返したり、ブラウザが何で、バージョンが何なのかによって、HTMLやら諸々の情報を別の内容で返したりします。

皆さんが説明されているとおり、User-Agent=ブラウザの種類・バージョンの設定がJavaプログラムでは恐らく未設定であるため、内容が変わっている、ということだと思います。

2.どのようにすれば読み込めるようになるのか?

これはroot_jpさんの言うとおり、User-Agentを既存のよくあるブラウザだと偽って設定してあげればいいと思います。root_jpさんの設定だと、Firefoxあたりでしょうかね。実際にはただのJavaプログラムなのですが、サーバー側ではそのプログラムがFirefoxであるかと勘違いして、HTMLを返してくれます。

余計なことしてたらすみません。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.22%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る