前提・実現したいこと
javaで商品レビューのデータをまとめたcsvを読み込み,その文章の漢字率を1レビューごとに求めて,その結果を再びcsvまたはtxt形式で出力したいです。
csvは、参考になった人数, レビュー本文という順番で保存しています。参考になった人数は、漢字率演算には含めないようにもしたいです。
例としては
400,"私は黒を購入しました!。サイズはぴったりです。"
300,"サイズはぴったりでしたが、質感はあまり良くないです。"
↑この形式に漢字率を付与した形での出力を目指しています。
30%,400,"私は黒を購入しました!。サイズはぴったりです。"
40%,300,"サイズはぴったりでしたが、質感はあまり良くないです。"
↑このような感じです。
発生している問題・エラーメッセージ
csvを読み込んで漢字率を出すことはできそうなのですが、それはcsv全体の漢字率になってしまいます。csvを読み込むときreadLineが一行ずつ読み込むとあったので、てっきり簡単だと思ったらcsv全体を読み込んでいるようで、修正しようとすると、どんどん分からなくなっていきました。
なので、最初に形にしたソースコードを貼ります。
csvを読み込んで、文章の文字数、漢字の数、非漢字数を表示した後でファイルにそれぞれ出力しました。下のkanjiCheckで漢字かどうか判断しています。
エラーメッセージ
該当のソースコード
java #言語
ソースコード
import java.io.*;
class KanjiTest {
// 入力ファイル
static final String reviewFile = "pc_review.csv";
// 出力ファイル
static final String allFile = "全.txt";
static final String kanjiFile = "漢字.txt";
static final String nonKanjiFile = "非漢字.txt";
public static void main(String args[]){
try{
//
// 入力ファイル
//
BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(reviewFile),"utf-8"));
//
// 出力ファイル
//
// 全
PrintWriter pw1 = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream(allFile),"Shift_JIS")));
// 漢字
PrintWriter pw2 = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream(kanjiFile),"Shift_JIS")));
// 非漢字
PrintWriter pw3 = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream(nonKanjiFile),"Shift_JIS")));
int countAll = 0;
int countKanji = 0;
int countNonKanji = 0;
String line;
while ((line = br.readLine()) != null) {
for (int i = 0; i < line.length(); i++) {
char c = line.charAt(i);
countAll++;
pw1.println(c);
if (kanjiCheck(c)) {
countKanji++;
pw2.println(c);
}
else {
countNonKanji++;
pw3.println(c);
}
}
}
System.out.println("全文字数:" + countAll);
System.out.println("漢字数:" + countKanji);
System.out.println("非漢字数:" + countNonKanji);
pw1.close();
pw2.close();
pw3.close();
} catch (IOException ex) {
ex.printStackTrace();
}
}
private static boolean kanjiCheck(char kanji) {
boolean flag = false;
try {
String str = "" + kanji;
byte[] b = str.getBytes("utf-8");
if (b[0] >= (byte)0xE4 && b[0] <= (byte)0xE9) {
flag = true;
}
}
catch(Exception e) {
System.out.println("文字コードチェックエラー");
}
return flag;
}
}
試したこと
どうやらAllayListを使えば、うまく行きそうな気配があるので試していますが、よくわかりません。
出力ファイルは漢字率が付与されたcsv一つだけでいいと思います。
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+1
Java8以上ですが、下記のような感じではどうでしょう?
try {
// ファイルの読み込みは Files使って簡潔に
Path inputFilePath = Paths.get(reviewFile)
List<String> lines = Files.readAllLines(inputFilePath);
// 出力用のバッファ
List<String> outputList = new ArrayList<>();
lines.forEach(line -> {
// 文字列を指定文字で分割
String[] cols = line.split(",");
// cols[0]=400, cols[1]="私は黒を購入しました!。サイズはぴったりです。" になります。
// ただしレビュー本文の中に, が含まれる場合は正しく処理できないです
// 全文字数はカウントしなくてもこれでいいですよね
long countAll = cols[1].length();
// Stream.filterで条件に合ったものを抽出して
// UnicodeBlockを使って文字判定を行い、一気にカウントまで
long countKanji = (cols[1].chars()).filter(c ->
(UnicodeBlock.of(c) == UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS)
).count();
// 行単位に比率計算して出力バッファに追加
int ratio = (int)(((countKanji * 1.0) / countAll) * 100);
outputList.add(String.format("%d%%,%s,%s",ratio,cols[0],cols[1]));
});
// ファイル出力
// 質問のコードには 文字種ごとにファイル分ける感じでしたが、質問本文の意図としてはこちらかな
// ファイル名の変数 outputFileはあらかじめ設定しておいてください
Files.write(Paths.get(outPutFile), outputList,
Charset.forName("Shift_JIS"),
StandardOpenOption.TRUNCATE_EXISTING);
}
catch (IOException ex) {
ex.printStackTrace();
}
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(reviewFile),"utf-8"));
FileInputStreamは、ファイル・システム内のファイルから入力バイトを取得します。どのファイルが有効であるかはホスト環境に依存します。
FileInputStreamは、イメージ・データなどのrawバイトのストリームを読み込むときに使用します。文字のストリームを読み込むときは、FileReaderを使用してください。
たぶんですが、rawデータとして読み込んだために、改行文字などが認識されず1行で読まれたのでは?
このドキュメントの通り、FileReaderを使って次のように書くといかがでしょう?
BufferedReader br = new BufferedReader(new FileReader(reviewFile),"utf-8");
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
-
この投稿は削除されました
-
この投稿は削除されました
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.18%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
swordone
2018/11/13 00:10
コードはマークダウンしてください。