質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Q&A

解決済

4回答

3146閲覧

Javaでのページ内の全単語リストを作成するプログラム

退会済みユーザー

退会済みユーザー

総合スコア0

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

0グッド

0クリップ

投稿2017/07/18 09:15

編集2017/07/20 03:38

###前提・実現したいこと
Javaでの指定URLページ内の全単語リストを作成するプログラムの作成で困っています.

###発生している問題・エラーメッセージ

ネットからspilit関数を使用しなければならないということはわかったのですが,わけた単語をどのようにして別個に単語数を数え上げ管理すればいいのかがよくわからず困っていました. 現在はMapを使用して書こうとしており,IOEエラーが出てしまって困っているという状況です. とりあえず下記に記載しておきます.

###該当のソースコード

Java

1import java.io.*; 2import java.net.*; 3 4public class CountWordURL{ 5 6 public static void main(String[] args) { 7 8 System.out.println("URL=" + args[0]); 9 System.out.println("WORD=" + args[1]); 10 11 String word=args[1].toLowerCase(); 12 int count=0; 13 try{ 14 URL url=new URL(args[0]); 15 BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream())); 16 17 while(true){ 18 String line=reader.readLine(); 19 20 if(line==null){break;} 21 System.out.println(line); 22 23 24 String l=line.toLowerCase(); 25 if(l.matches(".*" + word + ".*")){ 26 count++; 27 } 28 } 29 System.out.println(count); 30 reader.close(); 31 32 33 }catch(MalformedURLException e){System.out.println("URL is wrong: " + e); 34 }catch (IOException e) {System.out.println("I/O erorr: " + e); 35 36 } 37 38 } 39

###試したこと
課題に対してアプローチしたことを記載してください
書籍の参照
知人への質問
ネット検索

###補足情報(言語/FW/ツール等のバージョンなど)
より詳細な情報

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

LouiS0616

2017/07/18 09:21

日本語の単語リストですか?
退会済みユーザー

退会済みユーザー

2017/07/18 09:24

コメントありがとうございます! いえ,すべて英語のリストです.
LouiS0616

2017/07/18 09:29

単語の分割までは出来ているんでしょうか。
退会済みユーザー

退会済みユーザー

2017/07/18 09:37

はい,一応スペースで単語はわけられているページを扱っています.
fuzzball

2017/07/20 00:54

なぜ「ここにご自身が実行したソースコードを書いてください」のところにソースコードを書かないのですか?
退会済みユーザー

退会済みユーザー

2017/07/20 03:23

すみません,記入ミスです修正致しました.
guest

回答4

0

このサイトのこの項の「List.2-46_単語の生起頻度を集計する」を参考にしました。
たびたび目にして調べるけどいまだにこの定型句的なもの覚えられてない。

java

1Map<String, Long> map = Stream.of(target.toLowerCase().split("[.,]?\\s+")) 2 .collect(Collectors.groupingBy(w -> w, Collectors.counting()));

投稿2017/07/20 00:53

編集2017/07/21 05:22
swordone

総合スコア20649

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2017/07/20 03:33

回答ありがとうございます!今他の方の方法をとりあえず参考として試しているので,後ほど参考にさせていただきます.
guest

0

対象のテキストが英文字+半角記号だけで、かつ区切り文字が半角スペースで、半角記号は無視(消し去る)のであれば、

java

1public void analyze(String target) { 2 // 対象テキストから記号を全て取り除く 3 String symbolRemovedTarget = target.replaceAll("[!-/]", ""); 4 5 // 半角スペースを区切り文字とし、ConcurrentMap(単語名,カウント)に束ねる 6 ConcurrentMap<String, Integer> map = 7 Arrays.asList(symbolRemovedTarget.split(" ")).stream() 8 .collect(Collectors.toConcurrentMap(key -> key, v -> 1, (i,j)-> i+j )); 9 10 // 試しにSystem.outで全部出力 11 map.forEach((key,value) -> System.out.println(key + ":" + value)); 12}

で十分でしょうか。

投稿2017/07/19 14:53

A-pZ

総合スコア12011

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

swordone

2017/07/19 15:09

ConcurrentMapにした意図は何でしょう?
退会済みユーザー

退会済みユーザー

2017/07/20 03:33

回答ありがとうございます!今他の方の方法をとりあえず参考として試しているので,後ほど参考にさせていただきます.
guest

0

とりあえず形態素解析が無いのはよかったです。

簡単に思いつくのは、Mapを使ったものかなぁ。
keyが、word、valueはIntegerのMapで、keyが存在しない(初出のword)か、どうかで
判断するなんて、どうでしょう。

Java

1 2private void cntMp(Map<String, Integer> mp, String word) { 3 String lWord = word.toLowerCase(); 4 Integer i = mp.get(lWord); 5 mp.put(lWord, i == null ? 1 : i + 1); 6}

一応スペースで単語はわけられている

とはいえ、カンマとかピリオドとかの記号がジャマになるので記号の削除が必要ですね。

投稿2017/07/18 09:58

編集2017/07/18 10:01
momon-ga

総合スコア4820

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

momon-ga

2017/07/19 02:12 編集

いまどきだと、こうか・・・ Integer i = mp.getOrDefault(lWord, 0); mp.put(lWord, i + 1); あと、別に関数を作る必要はないです。
swordone

2017/07/19 15:07

いや、今時だとこの1文でOK mp.merge(lWord, 1, Integer::sum);
退会済みユーザー

退会済みユーザー

2017/07/20 03:26

回答ありがとうございます! 今とりあえず momon-ga さんの投稿からコードを書き直して以下の様になったのですが IOEエラーが出てしまって解決しようとしています. import java.io.*; import java.net.*; public class CountWordURL{ public static void main(String[] args) { System.out.println("URL=" + args[0]); System.out.println("WORD=" + args[1]); String word=args[1].toLowerCase(); int count=0; try{ URL url=new URL(args[0]); BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream())); while(true){ String line=reader.readLine(); if(line==null){break;} System.out.println(line); String l=line.toLowerCase(); if(l.matches(".*" + word + ".*")){ count++; } } System.out.println(count); reader.close(); }catch(MalformedURLException e){System.out.println("URL is wrong: " + e); }catch (IOException e) {System.out.println("I/O erorr: " + e); } } }
guest

0

ベストアンサー

java

1import java.io.*; 2import java.net.*; 3import java.util.*; 4 5public class wordListUpURL{ 6 7 public static void main(String[] args) { 8 9 10 Map<String,Integer>map=new HashMap<String,Integer>(); 11 12 13 14 try{ 15 URL url=new URL(args[0]); 16 BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream())); 17 Scanner sc=new Scanner(url.openStream()); 18 19 while(true){ 20 String line=reader.readLine(); 21 22 if(line==null){break;} 23 24 line=line.replaceAll("[!-@]"," "); 25 line=line.replaceAll("[\\x5B-\\x60]"," "); 26 line=line.replaceAll("[{-~}]"," "); 27 28 String words[]=line.split("[^a-zA-Z]"); 29 30 31 for(String word:words){ 32 33 word=word.toLowerCase(); 34 if(word.equals("")){continue;} 35 if(map.containsKey(word)){map.put(word,map.get(word)+1); 36 }else{map.put(word,1);} 37 38 39 } 40 } 41 42 43 44 45 for(String keyword:map.keySet()){ 46 System.out.println(keyword + " : " + map.get(keyword) + "words"); 47 } 48 49 50 51 52 }catch(MalformedURLException e){System.out.println("URL is wrong: " + e); 53 }catch (IOException e) {System.out.println("I/O erorr: " + e); 54 55 } 56 57 } 58 59 }

投稿2017/07/20 15:59

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

LouiS0616

2017/07/20 16:39

momon-gaさんのコード片から着想を得ているようですので、そちらにベストアンサーを付けたほうがよいでのは。
退会済みユーザー

退会済みユーザー

2017/07/20 18:09

私もそうしようとしたのですが,解決した方法を記入した後のベストアンサーの選択がよくわからずできずにいます.. 押すところが解決後はきえるのでしょうか…
LouiS0616

2017/07/20 18:30

前に変更している人を見かけたので、方法はあるはずです。そんなに面倒な手順ではなかったかと思いますが、申し訳ないですが私は知りません。
momon-ga

2017/07/21 01:26

気になさらなくていいですよー。個人的には、StreamAPIを使うほうが今後のためにはよいかと思いますし・・・
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問