ファイルの中の文章の正規化
受付中
回答 1
投稿
- 評価
- クリップ 0
- VIEW 331
前提・実現したいこと
機械学習のための学習用のデータの作成を作っています。
作成源はwikipedhiaのファイルを使っています。
実際にダウンロードしたファイルは正規化がされておらず、例えば、
Because I've been grading all damn day and am as tired as
a Swearengen of hearing
other about the finished semesters
of pretty much every other academic blogger,
I thought that
it might
be best to avoid
jealously lashing out and scribble a
"Best of Acephalous 2009" post.
のようにバラバラになっています。そこで、「.」が含まれていたら、例文を一行一文の文章に正規化したいのですが方法がわかりません。
発生している問題
コンパイルは上手くいくが、実行結果が上手くいかない(空になる)
該当のソースコード
import java.io.*;
import java.util.*;
class Checker{
void run(String File) throws IOException{
}//run終わり
void Period(String File) throws IOException{//現在の行番号を数える変数
BufferedReader in = new BufferedReader(new FileReader(File));//Fileを読み込む
String line;
while((line = in.readLine()) != null){//1行ずつ読む
if(line =="."){
String[] splitted = line.split(".");
ArrayList<String> list = new ArrayList<>();
list.add(String.valueOf(splitted));
System.out.println(list);
}
}
in.close();//閉じる
}
public static void main(String[] args) throws IOException{
Checker check = new Checker();
if(args.length != 0) {//引数が与えられなかった時、java.lang.ArrayIndexOutOfBoundsException: 0と出たので、runではなくクラスの中に入れました。
check.Period(args[0]);
}else{
System.out.println("ERROR:");
}
}
}
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
0
読み込む行数によっては処理が大変になるかもしれませんが、readLine()で読み込んだ行全てを1行にまとめて(+=)、そのあとにsplit(".")
で配列に落とし込めば配列内で1行になりませんかね。
検証はしていないので実際にどれくらいの配列ができるかは不明ですが…
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.21%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
jimbe
2019/08/20 03:35
なぜ「空になる」のか, 調査方法と調査結果を教えて頂けますか.
west_urad
2019/08/20 03:59
調査方法 java Checker example.txt
調査結果 [[Ljava.lang.String;@7852e922]
と出ました。[[Ljava.lang.String;@7852e922]を検索してみたところ、https://teratail.com/questions/533
のサイトを見ました。
そして、list.add(Arrays.toString(splitted));
System.out.println(list);
と修正し、実行してみたところ、[]と空文字が出力しました。
asakuta
2019/08/20 09:05
コードはMarkdown記法で挿入してください。
それと、補足情報がある場合はここではなく質問文で追記してください。
if文の条件式内でStringを==で比較していますが正しくはequalsを使います。
jimbe
2019/08/20 11:03
https://teratail.com/questions/533 では ArrayList は出てきませんが, なぜ System.out.println(Arrays.toString(splitted)); では無く ArrayList を入れたのでしょう.