質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.49%

Javaでのページ内の全単語リストを作成するプログラム

解決済

回答 4

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,630
退会済みユーザー

退会済みユーザー

前提・実現したいこと

Javaでの指定URLページ内の全単語リストを作成するプログラムの作成で困っています.

発生している問題・エラーメッセージ

ネットからspilit関数を使用しなければならないということはわかったのですが,わけた単語をどのようにして別個に単語数を数え上げ管理すればいいのかがよくわからず困っていました.

現在はMapを使用して書こうとしており,IOEエラーが出てしまって困っているという状況です.
とりあえず下記に記載しておきます.

該当のソースコード

import java.io.*;
import java.net.*;

public class CountWordURL{

    public static void main(String[] args) {

            System.out.println("URL=" + args[0]);
            System.out.println("WORD=" + args[1]);

            String word=args[1].toLowerCase();
            int count=0;
            try{
                URL url=new URL(args[0]);
                BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream()));

                while(true){
                    String line=reader.readLine();

                    if(line==null){break;}
                    System.out.println(line);


                String l=line.toLowerCase();
                if(l.matches(".*" + word + ".*")){
                    count++;
                }
            }
                System.out.println(count);
                reader.close();


            }catch(MalformedURLException e){System.out.println("URL is wrong: " + e);
        }catch (IOException e) {System.out.println("I/O erorr: " + e);

      }

    }

試したこと

課題に対してアプローチしたことを記載してください
書籍の参照
知人への質問
ネット検索

補足情報(言語/FW/ツール等のバージョンなど)

より詳細な情報

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • 退会済みユーザー

    退会済みユーザー

    2017/07/18 18:37

    はい,一応スペースで単語はわけられているページを扱っています.

    キャンセル

  • fuzzball

    2017/07/20 09:54

    なぜ「ここにご自身が実行したソースコードを書いてください」のところにソースコードを書かないのですか?

    キャンセル

  • 退会済みユーザー

    退会済みユーザー

    2017/07/20 12:23

    すみません,記入ミスです修正致しました.

    キャンセル

回答 4

+2

このサイトのこの項の「List.2-46_単語の生起頻度を集計する」を参考にしました。
たびたび目にして調べるけどいまだにこの定型句的なもの覚えられてない。

Map<String, Long> map = Stream.of(target.toLowerCase().split("[.,]?\\s+"))
                            .collect(Collectors.groupingBy(w -> w, Collectors.counting()));

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/07/20 12:33

    回答ありがとうございます!今他の方の方法をとりあえず参考として試しているので,後ほど参考にさせていただきます.

    キャンセル

+1

とりあえず形態素解析が無いのはよかったです。

簡単に思いつくのは、Mapを使ったものかなぁ。
keyが、word、valueはIntegerのMapで、keyが存在しない(初出のword)か、どうかで
判断するなんて、どうでしょう。

private void cntMp(Map<String, Integer> mp, String word) {
    String lWord = word.toLowerCase();
    Integer i = mp.get(lWord);
    mp.put(lWord, i == null ? 1 : i + 1);
}

一応スペースで単語はわけられている

とはいえ、カンマとかピリオドとかの記号がジャマになるので記号の削除が必要ですね。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/07/18 19:08 編集

    いまどきだと、こうか・・・
    Integer i = mp.getOrDefault(lWord, 0);
    mp.put(lWord, i + 1);

    あと、別に関数を作る必要はないです。

    キャンセル

  • 2017/07/20 00:07

    いや、今時だとこの1文でOK
    mp.merge(lWord, 1, Integer::sum);

    キャンセル

  • 2017/07/20 12:26

    回答ありがとうございます!

    今とりあえず momon-ga さんの投稿からコードを書き直して以下の様になったのですが
    IOEエラーが出てしまって解決しようとしています.

    import java.io.*;
    import java.net.*;

    public class CountWordURL{

    public static void main(String[] args) {

    System.out.println("URL=" + args[0]);
    System.out.println("WORD=" + args[1]);

    String word=args[1].toLowerCase();
    int count=0;
    try{
    URL url=new URL(args[0]);
    BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream()));

    while(true){
    String line=reader.readLine();

    if(line==null){break;}
    System.out.println(line);


    String l=line.toLowerCase();
    if(l.matches(".*" + word + ".*")){
    count++;
    }
    }
    System.out.println(count);
    reader.close();


    }catch(MalformedURLException e){System.out.println("URL is wrong: " + e);
    }catch (IOException e) {System.out.println("I/O erorr: " + e);

    }

    }
    }

    キャンセル

+1

対象のテキストが英文字+半角記号だけで、かつ区切り文字が半角スペースで、半角記号は無視(消し去る)のであれば、

public void analyze(String target) {
  // 対象テキストから記号を全て取り除く
  String symbolRemovedTarget = target.replaceAll("[!-/]", "");

  // 半角スペースを区切り文字とし、ConcurrentMap(単語名,カウント)に束ねる
  ConcurrentMap<String, Integer> map = 
    Arrays.asList(symbolRemovedTarget.split(" ")).stream()
        .collect(Collectors.toConcurrentMap(key -> key, v -> 1, (i,j)-> i+j ));

  // 試しにSystem.outで全部出力
  map.forEach((key,value) -> System.out.println(key + ":" + value));
}

で十分でしょうか。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/07/20 00:09

    ConcurrentMapにした意図は何でしょう?

    キャンセル

  • 2017/07/20 12:33

    回答ありがとうございます!今他の方の方法をとりあえず参考として試しているので,後ほど参考にさせていただきます.

    キャンセル

check解決した方法

0

import java.io.*;
import java.net.*;
import java.util.*;

public class wordListUpURL{

    public static void main(String[] args) {


            Map<String,Integer>map=new HashMap<String,Integer>();



            try{
                URL url=new URL(args[0]);
                BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream()));
                Scanner sc=new Scanner(url.openStream());

                while(true){
                    String line=reader.readLine();

                    if(line==null){break;}

                    line=line.replaceAll("[!-@]"," ");
                    line=line.replaceAll("[\\x5B-\\x60]"," ");                    
                    line=line.replaceAll("[{-~}]"," ");                

                String words[]=line.split("[^a-zA-Z]");


                for(String word:words){

                        word=word.toLowerCase();
                        if(word.equals("")){continue;}
                        if(map.containsKey(word)){map.put(word,map.get(word)+1);
                        }else{map.put(word,1);}


                            }
                }




                for(String keyword:map.keySet()){
                System.out.println(keyword + " : " + map.get(keyword) + "words");
                }




            }catch(MalformedURLException e){System.out.println("URL is wrong: " + e);
            }catch (IOException e) {System.out.println("I/O erorr: " + e);

              }

        }

    }

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/07/21 01:39

    momon-gaさんのコード片から着想を得ているようですので、そちらにベストアンサーを付けたほうがよいでのは。

    キャンセル

  • 2017/07/21 03:09

    私もそうしようとしたのですが,解決した方法を記入した後のベストアンサーの選択がよくわからずできずにいます..
    押すところが解決後はきえるのでしょうか…

    キャンセル

  • 2017/07/21 03:30

    前に変更している人を見かけたので、方法はあるはずです。そんなに面倒な手順ではなかったかと思いますが、申し訳ないですが私は知りません。

    キャンセル

  • 2017/07/21 10:26

    気になさらなくていいですよー。個人的には、StreamAPIを使うほうが今後のためにはよいかと思いますし・・・

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.49%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る