質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

594閲覧

Javaオブジェクト指向でスクレイピング(Jsoup)CSVに100件出力

mobame

総合スコア20

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/02/25 02:53

編集2020/02/25 02:54

前提・実現したいこと

Jsoup使ってJavaオブジェクト指向でスクレイピング
(yahooニュースの検索結果)CSVに100出力させたいです。

https://news.yahoo.co.jp/search/;_ylt=A2RCMZAAcFReUzoAoAIPk.d7?p=%E5%86%8D%E7%94%9F&aq=-1&oq=&ei=UTF-8
ここの記事から100件出力させたい

一件ずつURLを指定してるため時間がかかります。
もっと簡単にさせたいです。
どのようにすればできるかご教授いただけないでしょうか。

発生している問題・エラーメッセージ

Scrape saisei1 = new Scrape("https://headlines.yahoo.co.jp/hl?a=20200225-00000036-reut-bus_all"); Scrape2 saisei2 = new Scrape2("https://headlines.yahoo.co.jp/article?a=20200225-00213596-hbolz-soci"); Scrape2 saisei3 = new Scrape2("https://headlines.yahoo.co.jp/article?a=20200225-01647319-sspa-bus_all");

一件ずつURLを指定してるため時間がかかります。

該当のソースコード

Scrape

1 2public class Scrape { 3 protected String url; 4 Scrape(String url){ 5 this.url = url; 6 } 7 8 public void scrapeData() { 9 10 11 PrintWriter p = null; 12 try { 13 p= new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream("出力パス\yahoo_contents.csv"), "Shift-JIS"))); 14 15 p.print("No"); 16 p.print(","); 17 p.print("Title"); 18 p.print(","); 19 p.print("Text"); 20 p.print(","); 21 p.print("Date"); 22 p.print(","); 23 p.print("Reporter"); 24 p.println(); 25 26 int num = 1; 27 Document doc = Jsoup.connect(this.url).proxy("*******", ****).get(); 28 Elements elm = doc.select("#ym_newsarticle"); 29 for (Element elms : elm) { 30 Element title = elms.select(".hd h1").first(); 31 Element text = elms.select(".ynDetailText").first(); 32 Element date = elms.select(".date").first(); 33 Element reporter = elms.select(".ynCpName a").first(); 34 if (title == null || text == null) 35 continue; 36 // 内容をセットする 37 p.print(num); 38 p.print(","); 39 p.print(title.text()); 40 p.print(","); 41 p.print(text.text()); 42 p.print(","); 43 p.print(date.text().replace("最終更新:", "")); 44 p.print(","); 45 p.print(reporter.text()); 46 p.println(); 47 num++; 48 } 49 } catch (IOException e) { 50 System.out.println(e); 51 } finally { 52 p.close(); 53 } 54 System.out.println("ファイル出力完了!"); 55 56 long end = System.currentTimeMillis(); 57 System.out.println((end - start) + "ms"); 58 System.out.println((end - start) / 1000 + "秒"); 59 } 60} 61

Scrape2

1 2public class Scrape { 3 protected String url; 4 Scrape(String url){ 5 this.url = url; 6 } 7 8 public void scrapeData() { 9 10 11 PrintWriter p = null; 12 try { 13 p= new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream("出力パス\yahoo_contents.csv",true), "Shift-JIS"))); 14 15 int num = 1; 16 Document doc = Jsoup.connect(this.url).proxy("*******", ****).get(); 17 Elements elm = doc.select("#ym_newsarticle"); 18 for (Element elms : elm) { 19 Element title = elms.select(".hd h1").first(); 20 Element text = elms.select(".ynDetailText").first(); 21 Element date = elms.select(".date").first(); 22 Element reporter = elms.select(".ynCpName a").first(); 23 if (title == null || text == null) 24 continue; 25 // 内容をセットする 26 p.print(num); 27 p.print(","); 28 p.print(title.text()); 29 p.print(","); 30 p.print(text.text()); 31 p.print(","); 32 p.print(date.text().replace("最終更新:", "")); 33 p.print(","); 34 p.print(reporter.text()); 35 p.println(); 36 num++; 37 } 38 } catch (IOException e) { 39 System.out.println(e); 40 } finally { 41 p.close(); 42 } 43 System.out.println("ファイル出力完了!"); 44 45 long end = System.currentTimeMillis(); 46 System.out.println((end - start) + "ms"); 47 System.out.println((end - start) / 1000 + "秒"); 48 } 49} 50

Main

1 2public class Main { 3 4 public static void main(String[] args) { 5 // TODO 自動生成されたメソッド・スタブ 6 System.setProperty("jdk.http.auth.tunneling.disabledSchemes", ""); 7 8 Authenticator.setDefault(new Authenticator() { 9 @Override 10 protected PasswordAuthentication getPasswordAuthentication() { 11 return new PasswordAuthentication("*******", "******".toCharArray()); 12 } 13 }); 14 Scrape saisei1 = new Scrape("https://headlines.yahoo.co.jp/hl?a=20200225-00000036-reut-bus_all"); 15 Scrape2 saisei2 = new Scrape2("https://headlines.yahoo.co.jp/article?a=20200225-00213596-hbolz-soci"); 16 Scrape2 saisei3 = new Scrape2("https://headlines.yahoo.co.jp/article?a=20200225-01647319-sspa-bus_all"); 17 18 saisei1.scrapeData(); 19 20 saisei2.scrapeData2(); 21 22 saisei3.scrapeData2(); 23 24 } 25 26} 27

試したこと

補足情報(FW/ツールのバージョンなど)

Eclipse Pleiades2019-12・jdk1.8.0_241・jsoup-1.12.1

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

質問に書かれているURLのページには、各記事へのリンク(URL)しかありませんから、それらを順にアクセスして内容を取得する以外に方法はありません。

投稿2020/02/25 03:33

coco_bauer

総合スコア6915

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mobame

2020/02/25 07:45

ありがとうございます
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問