質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Q&A

解決済

1回答

1833閲覧

javaでのwebスクレイピングにおけるエラー

junkjunk

総合スコア26

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

0グッド

0クリップ

投稿2019/07/26 02:47

編集2019/07/29 01:25

javaでjsoupを用いてwebスクレイピングを行い、新規txtファイルに保存するプログラムを作成しています。
使用している環境は
EclipseIDE Version: 2019-03 (4.11.0)
Jsoup-1.12.1.jar
です。

java

1package getInfo; 2 3import java.io.FileWriter; 4import java.io.IOException; 5import java.io.File; 6import org.jsoup.Jsoup; 7import org.jsoup.nodes.Document; 8import org.jsoup.nodes.Element; 9import org.jsoup.select.Elements; 10public class test{ 11 public static void main(String[] args) throws IOException { 12 13 try { 14 File file = new File("c:¥¥user¥¥test7.txt"); 15 16 if(!(file.exists())) { 17 FileWriter filewriter = new FileWriter(file); 18 Document document = Jsoup.connect("https://news.yahoo.co.jp/").get(); 19 Elements elements = document.select("h6"); 20 21 for (Element element : elements) { 22 String name = element.text(); 23 filewriter.write(name + "\n"); 24 System.out.println(name); 25 } 26 filewriter.close(); 27 }else { 28 System.out.println("このファイルは既に存在します"); 29 } 30 }catch(IOException e) { 31 System.out.println("Error:FileWrite"); 32 } 33 } 34} 35

このコードを実行すると、FileWriterで例外処理が発生し"Error:FileWriter"が出力されます。
System.out.println("")を挟んでチェックしたところ

java

1Document document = Jsoup.connect("https://wa3.i-3-i.info/word13663.html").get();

ここの部分で例外処理に飛んでおり、上手くWebページからHTML情報を変数に代入出来ていないようです。
色々なページで試してみましたが全て例外処理に飛んでしまいました。

調べてみたところJavaScriptを使用しているページではJsoup.connectが上手く動作しないといった記述もありましたが
よく原因がわかりませんでした。
ちなみにもう一度実行すると"このファイルは既に存在しています"と出力されますが、フォルダにはtxtファイルが作成されていませんでした。

何か原因がわかる方いらっしゃればご教示お願いしたいです。よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

coco_bauer

2019/07/28 03:21

「FileWriterで例外処理が発生し」というのは、質問のプログラムのどのコード行で例外が発生しているというのですか? "Document document = Jsoup.connect("https://wa3.i-3-i.info/word13663.html").get();"ここの部分で例外処理に飛んでおりとも書かれていますが、try節の中で例外が発生したら、catch節でその例外が補足されるので、try節の中で起きた2つの例外が両方とも補足される事はありません。 「"Error:FileWriter"が出力されます」というのは、catch節でそのように出力するようにしてあるからで、それは例外がtry節のどこかで起きた事を示しているだけです。 "System.out.println("Error:FileWrite");"の下に、"System.out.println(e);"というコードを追加すると、例外の内容が表示されるようになりますので、表示された内容を質問に追加してください。そうすると例外の原因が絞り込めますから。
junkjunk

2019/07/29 01:24

coco_bauerさん 「FileWriterで例外処理が発生し」というのはFileWriterクラスを使おうとした本プログラムで例外処理が発生した、という意味で、 FileWriterクラスを使おうとしたら例外処理が発生した→System.out.println("")を各行に挟んで確認したところ「Document document・・・」の一行の部分で例外処理が発生しているらしい、という流れです。わかりにくくてすみません。なのでtry節の中では例外処理は1つだけ発生しているという認識です。 尚、ご指摘頂いたSystem.out.println(e)を設定したところ 「java.net.ConnectException: Connection timed out: connect」 というエラー文が吐き出されました。 asahina1979さん 確認不足でした…。申し訳ないです。該当箇所のURLを修正させていただきます。ご指摘頂いてありがとうございます。
coco_bauer

2019/07/29 08:39

「java.net.ConnectException: Connection timed out: connect」という説明ですから、指定したURLに接続しにいったのに制限時間内(通所、2秒以内)に接続できなかった。だから、"時間切れで接続できませんでした"という例外が挙がったという事情だったと考えられます。 質問のプログラムの ”Document document = Jsoup.connect("https://news.yahoo.co.jp/").get();”の行を、"Document document = Jsoup.connect("https://news.yahoo.co.jp/").timeout(5000).get();"に変更してみてください。 ".timeout(5000)"の部分で制限時間を5秒(5000ミリ秒)に設定していますから、成功するかもしれません。(ダメなら、.timeout(100000 で試してみてください。10秒でも接続できないならネットワークの設定や、ネットワーク機器などに問題があるのかもしれません。
junkjunk

2019/07/30 01:57

coco_bauerさん .timeout()を追加して試したところ20秒、30秒にしてもやはりconnection timed outになってしまうため、ネットワークの設定が原因だと思われます。 ひとまず原因がわかっただけでも助かりました。ありがとうございます。
junkjunk

2019/07/30 03:35

coco_bauerさん timeout()で制限時間を指定したところうまく接続できるようになりました。ありがとうございます。 ベストアンサーにさせて頂きたいのですが質問に対するコメント欄でのやりとりですので自己解決にてcoco_bauerさんの解決方法を載せさせて頂きます。
guest

回答1

0

自己解決

制限時間内(通常2秒以内)に接続できなかったことが原因でした。
”Document document = Jsoup.connect("https://news.yahoo.co.jp/").get();”

"Document document = Jsoup.connect("https://news.yahoo.co.jp/").timeout(10000).get();""
に変更して制限時間を延長したところ接続できるようになりました。

投稿2019/07/30 03:37

junkjunk

総合スコア26

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問