質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.18%

java csvを読み込んで一文ごと漢字率を求めてcsvで出力したいです。

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 765

menuett

score 15

 前提・実現したいこと

javaで商品レビューのデータをまとめたcsvを読み込み,その文章の漢字率を1レビューごとに求めて,その結果を再びcsvまたはtxt形式で出力したいです。
csvは、参考になった人数, レビュー本文という順番で保存しています。参考になった人数は、漢字率演算には含めないようにもしたいです。
例としては
400,"私は黒を購入しました!。サイズはぴったりです。"
300,"サイズはぴったりでしたが、質感はあまり良くないです。"
↑この形式に漢字率を付与した形での出力を目指しています。

30%,400,"私は黒を購入しました!。サイズはぴったりです。"
40%,300,"サイズはぴったりでしたが、質感はあまり良くないです。"
↑このような感じです。

 発生している問題・エラーメッセージ

csvを読み込んで漢字率を出すことはできそうなのですが、それはcsv全体の漢字率になってしまいます。csvを読み込むときreadLineが一行ずつ読み込むとあったので、てっきり簡単だと思ったらcsv全体を読み込んでいるようで、修正しようとすると、どんどん分からなくなっていきました。
なので、最初に形にしたソースコードを貼ります。
csvを読み込んで、文章の文字数、漢字の数、非漢字数を表示した後でファイルにそれぞれ出力しました。下のkanjiCheckで漢字かどうか判断しています。

エラーメッセージ

 該当のソースコード

java #言語
ソースコード

import java.io.*;

class KanjiTest {
    // 入力ファイル
    static final String reviewFile = "pc_review.csv";

    // 出力ファイル
    static final String allFile = "全.txt";
    static final String kanjiFile = "漢字.txt";
    static final String nonKanjiFile = "非漢字.txt";

    public static void main(String args[]){
        try{
            //
            // 入力ファイル
            //
            BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(reviewFile),"utf-8"));

            //
            // 出力ファイル
            //
            // 全
            PrintWriter pw1 = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream(allFile),"Shift_JIS")));

            // 漢字
            PrintWriter pw2 = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream(kanjiFile),"Shift_JIS")));

            // 非漢字
            PrintWriter pw3 = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream(nonKanjiFile),"Shift_JIS")));

            int countAll = 0;
            int countKanji = 0;
            int countNonKanji = 0;

            String line;
            while ((line = br.readLine()) != null) {
                for (int i = 0; i < line.length(); i++) {
                    char c = line.charAt(i);

                    countAll++;
                    pw1.println(c);

                    if (kanjiCheck(c)) {
                        countKanji++;
                        pw2.println(c);
                    }
                    else  {
                        countNonKanji++;
                        pw3.println(c);
                    }
                }
            }

            System.out.println("全文字数:" + countAll);
            System.out.println("漢字数:" + countKanji);
            System.out.println("非漢字数:" + countNonKanji);

            pw1.close();
            pw2.close();
            pw3.close();
        } catch (IOException ex) {
            ex.printStackTrace();
        }
    }

    private static boolean kanjiCheck(char kanji) {
        boolean flag = false;
        try {
            String str = "" + kanji;
            byte[] b = str.getBytes("utf-8");
            if (b[0] >= (byte)0xE4 && b[0] <= (byte)0xE9) {
                flag = true;
            }
        }
        catch(Exception e) {
            System.out.println("文字コードチェックエラー");
        }
        return flag;
    }
}

 試したこと

どうやらAllayListを使えば、うまく行きそうな気配があるので試していますが、よくわかりません。
出力ファイルは漢字率が付与されたcsv一つだけでいいと思います。

 補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • swordone

    2018/11/13 00:10

    コードはマークダウンしてください。

    キャンセル

回答 2

checkベストアンサー

+1

Java8以上ですが、下記のような感じではどうでしょう?

try {
  // ファイルの読み込みは Files使って簡潔に
  Path inputFilePath = Paths.get(reviewFile)
  List<String> lines = Files.readAllLines(inputFilePath);
  // 出力用のバッファ
  List<String> outputList = new ArrayList<>();

  lines.forEach(line -> {
    // 文字列を指定文字で分割
    String[] cols = line.split(",");
    // cols[0]=400, cols[1]="私は黒を購入しました!。サイズはぴったりです。" になります。 
    // ただしレビュー本文の中に, が含まれる場合は正しく処理できないです

    // 全文字数はカウントしなくてもこれでいいですよね
    long countAll = cols[1].length();

    // Stream.filterで条件に合ったものを抽出して
    // UnicodeBlockを使って文字判定を行い、一気にカウントまで
    long countKanji = (cols[1].chars()).filter(c -> 
      (UnicodeBlock.of(c) == UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS)
    ).count();

    // 行単位に比率計算して出力バッファに追加
    int ratio = (int)(((countKanji * 1.0) / countAll) * 100);
    outputList.add(String.format("%d%%,%s,%s",ratio,cols[0],cols[1]));
  });
  // ファイル出力
  // 質問のコードには 文字種ごとにファイル分ける感じでしたが、質問本文の意図としてはこちらかな
  // ファイル名の変数 outputFileはあらかじめ設定しておいてください
  Files.write(Paths.get(outPutFile), outputList,
            Charset.forName("Shift_JIS"), 
            StandardOpenOption.TRUNCATE_EXISTING);
}
catch (IOException ex) {
  ex.printStackTrace();
}

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/11/14 13:24

    読み込むプログラム側ではどの改行がデータの区切りでどの改行がレビュー中の改行なのかを判断することは難しいので、データをきちんと作ることが必要だと思いますよ。Excelでデータ作っているならExcel側でレビュー中の改行削除とかできるのでは無いでしょうか?
    http://cblog.crie.jp/excel/48/

    キャンセル

  • 2018/11/14 14:23

    回答ありがとうございます。
    改行や空白を削除した後にコードを実行すると必ず
    Exception in thread "main" java.io.UncheckedIOException: java.nio.charset.MalformedInputException: Input length = 1
    at java.io.BufferedReader$1.hasNext(Unknown Source)
    at java.util.Iterator.forEachRemaining(Unknown Source)
    at java.util.Spliterators$IteratorSpliterator.forEachRemaining(Unknown Source)
    at java.util.stream.ReferencePipeline$Head.forEach(Unknown Source)
    at KanjiSample.main(KanjiSample.java:18)
    Caused by: java.nio.charset.MalformedInputException: Input length = 1
    at java.nio.charset.CoderResult.throwException(Unknown Source)
    at sun.nio.cs.StreamDecoder.implRead(Unknown Source)
    at sun.nio.cs.StreamDecoder.read(Unknown Source)
    at java.io.InputStreamReader.read(Unknown Source)
    at java.io.BufferedReader.fill(Unknown Source)
    at java.io.BufferedReader.readLine(Unknown Source)
    at java.io.BufferedReader.readLine(Unknown Source)
    ... 5 more
    このエラーばかりが出ます。このエラーはよく分かりませんが、
    どうにか自分でやってみます。ありがとうございました。

    キャンセル

  • 2018/11/14 17:09

    キャンセル

0

BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(reviewFile),"utf-8"));


FileInputStream

FileInputStreamは、ファイル・システム内のファイルから入力バイトを取得します。どのファイルが有効であるかはホスト環境に依存します。
FileInputStreamは、イメージ・データなどのrawバイトのストリームを読み込むときに使用します。文字のストリームを読み込むときは、FileReaderを使用してください。

たぶんですが、rawデータとして読み込んだために、改行文字などが認識されず1行で読まれたのでは?
このドキュメントの通り、FileReaderを使って次のように書くといかがでしょう?

BufferedReader br = new BufferedReader(new FileReader(reviewFile),"utf-8");

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • この投稿は削除されました

  • この投稿は削除されました

  • 2018/11/14 12:58

    失礼しました。間違って送ってしまいました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.18%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る