トップに関する質問 Java　MalformedInputExceptionエラー

編集履歴

質問編集履歴

自己解決が進み問題点が絞られたため。

2020/11/06 20:45

投稿

hankechi78

スコア8

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- Java　MalformedInputExceptionエラー~~,for文~~
1	+ Java　MalformedInputExceptionエラー

body CHANGED Viewed

@@ -1,458 +1,34 @@
 ### 前提・実現したいこと
-ディレクトリ「path1」内の複数のファイル（dat形式）をモデル（modele）として読み込み、このモデルに基づいて、「path2」で指定したファイルがどの言語で書かれているかを自動的に判断させるプログラムを以下の通り設計しています。
+一つのフォルダ内の複数のファイルを読み込み、絶対パスを取得したいのですが、なぜか二つ目に.DS_Storeが余計に作成されて困っています。どうすれば作成されないようにできるでしょうか？
-最終的に、メイン関数で下記TextAnalyseクラスのidentifierLangue(modeles)メソッドを呼び出し、１行「このテキストの言語は（言語モデル名）である」と表示させたいと思っています。
-しかし、なぜか以下の通り表示されます。
-また、path2で読み込んでいるの分析用テキストがフランス語(fr)テキストなのにもかかわらず（分析用テキストの単語数は十分長いと思います・・・）、結果はオランダ語（nl）が結果として表示されているので、モデルごとの合計得点の比較（下記参照）もうまくいっていないように見受けられます。
 ### 発生している問題
 ```
-このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
+/Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
-java.nio.charset.MalformedInputException: Input length = 1
+/Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/.DS_Store
-このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
+/Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/fr.dat
-このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
+/Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/en.dat
-このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
+/Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/it.dat
-このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
+/Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/de.dat
-このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
 ```
 ### 該当のソースコード
-Identifierクラス（メイン）
-```
+```Java
-package langueIdentifier;
+package test;
 import java.io.File;
-import java.util.ArrayList;
-public class Identifier {
+public class Test3 {
 	public static void main(String[] args) {
-		File dir = new File("path1");
+		File dir = new File("/Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues");
 		File files[] = dir.listFiles();
-		ArrayList<Modele> modeles = new ArrayList<Modele>();
-//各言語ファイルの絶対パスを取得し、それを引数として各言語モデルにつきmodeleインスタンスを作成。identifierLangueメソッドを呼び出す前準備としてこれらのインスタンスを配列modelesに保存。
 		for (int i=0 ; i < files.length; i++) {
-　　　　　　　String filePath = files[i].getAbsolutePath();
+			String fileName = files[i].getAbsolutePath();
-			Modele modele = new Modele(filePath);
-			modeles.add(modele);
-		TextAnalyse t = new TextAnalyse("path2");
-		t.identifierLangue(modeles);
-	}
-}
-}
-```
-TextAnalyseクラス
-```
-package langueIdentifier;
-import java.nio.file.*;
-import java.text.BreakIterator;
-import java.nio.charset.Charset;
-import java.io.BufferedReader;
-import java.io.IOException;
-import java.util.ArrayList;
-import java.util.HashMap;
-public class TextAnalyse {
-	private String textFile;
-	private ArrayList<String> mots;
-	public TextAnalyse(String file) {
-		this.textFile = file;
-		this.mots = new ArrayList<String>();
-		lectureDossier();
-	}
-	public void lectureDossier() {
-//この部分は正常に作動。path2の分析対象のテキストを単語に分割。テキストの言語を特定する上で、分割した各単語が各言語モデルの辞書（modeleクラスの注意書参照）に含まれているかを調べる必要があるため。
-		Path p = Paths.get(textFile);
-		Charset charset = Charset.forName("UTF-8");
-		try (BufferedReader reader = Files.newBufferedReader(p, charset)){
-			String line = reader.readLine();
-			BreakIterator wb = BreakIterator.getWordInstance();
-			while (line != null) {
-				wb.setText(line);
-				int lastIndex = wb.first();
-				while (BreakIterator.DONE != lastIndex) {
-					int firstIndex = lastIndex;
-					lastIndex = wb.next();
-					if (lastIndex != wb.DONE && Character.isLetterOrDigit(line.charAt(firstIndex))) {
-						String mot = line.substring(firstIndex, lastIndex).toLowerCase();
-						mots.add(mot);
-					}
-				}
-				line = reader.readLine();
-			}
-		} catch (IOException ioe) {
-			System.out.println(ioe.toString());
+			System.out.println(fileName);
 		}
-	}
-	public void identifierLangue(ArrayList<Modele> modeles) {
-//このメソッドで分析対象のテキストの言語を特定。分析対象のテキストに含まれている各単語がmodeleインスタンスの辞書に含まれていて、かつ点数の高い単語が多く含まれているほど、分析対象のテキストがそのmodeleの言語である可能性が高くなる。Scoreクラスのメソッドを用いて各モデルの点数を計算している。
-//各モデルの合計得点を最後に比べるためのマップを予め作成。
-		HashMap<Modele, Double> scores = new HashMap<Modele, Double>();
-//最高得点を獲得したモデルを格納して最後に表示するための前準備。
-		ArrayList<Modele> list = new ArrayList<Modele>();
-//各モデルの合計得点を計算。
-		for (Modele modele: modeles) {
-			HashMap<String, Double> d = modele.getDict();
-			Score score = new Score(modele);
-			for (String mot : mots) {
-				if (d.containsKey(mot)) {
-					score.addPoint(mot);
-			}
-			Double totalScore = score.getScore();
-			scores.put(modele, totalScore);
-			}
-//合計得点を比較。
-		Object firstModele = scores.keySet().toArray()[0];
-		Double scoreMax = scores.get(firstModele);
-		for (int k = 1 ; k < scores.size(); k++) {
-			Object modeleK = scores.keySet().toArray()[k];
-			Double scoreK = scores.get(modeleK);
-			if (scoreMax < scoreK) {
-				scoreMax = scoreK;
-			}
-		}
-//最高得点を取ったモデルを特定し、分析対象のテキストがそのモデルの言語であることをユーザーに伝える。
-		for (Modele key : scores.keySet()) {
-			if(scores.get(key).equals(scoreMax)) {
-				Modele keyCible = key;
-				list.add(keyCible);
-			}
-		}
-		}
-		System.out.println("このテキストの言語は次のファイルの言語です : " + list.get(0).getFile());
-	}
 }
-```
-Modeleクラス
-```
-package langueIdentifier;
-import java.nio.file.*;
-import java.nio.charset.Charset;
-import java.io.BufferedReader;
-import java.io.File;
-import java.io.IOException;
-import java.util.ArrayList;
-import java.util.HashMap;
-public class Modele {
-	private String modeleFile;
-//modeleクラスのインスタンスは①単語と②その単語の重み（点数）をペアにした辞書を持つ（末尾の「補足情報」参照）。
-	private HashMap<String, Double> dictionaire;
-	public Modele(String file) {
-		this.modeleFile = file;
-		this.dictionaire = new HashMap<String, Double>();
-		lectureModele();
-	}
-	public void lectureModele() {
-		Path p = Paths.get(modeleFile);
-		Charset charset = Charset.forName("UTF-8");
-		try (BufferedReader reader = Files.newBufferedReader(p, charset)){
-			String line = reader.readLine();
-			while (line != null) {
-				if (! line.startsWith("#")) {
-					String[] lineSplit = line.split(" ");
-					dictionaire.put(lineSplit[0], Double.parseDouble(lineSplit[1]));
-				}
-			line = reader.readLine();
-			}
-		} catch (IOException ioe) {
-			System.out.println(ioe.toString());
-		}
-	}
-	public String getFile() {
-		return modeleFile;
-	}
-	public HashMap<String, Double> getDict() {
-		return dictionaire;
-	}
 }
-```
+```
-Scoreクラス
-```
-package langueIdentifier;
-import java.util.HashMap;
-public class Score {
-	private Modele modele;
-	HashMap<String, Double> points;
-	public Score(Modele modele) {
-		this.modele = modele;
-		this.points = new HashMap<>();
-	}
-	public void addPoint(String mot){
-		HashMap<String, Double> d = modele.getDict();
-		if (d.containsKey(mot)) {
-			points.put(mot, d.get(mot));
-		}
-	}
-	public Double getScore() {
-		Double sum = 0.0;
-		for (Double d : points.values()) {
-			sum += d;
-		}
-		return sum;
-	}
-}
-```
-### 補足情報
-分析対象のテキストの例（フランス語）
-Le climatosceptique de la Maison-Blanche a besoin de tenir certaines de ses promesses et asseoir ainsi un quinquennat déjà contesté dans l'ensemble du pays.
-Le chat paraissait malade.
-（抜粋）
-言語モデルのファイル(英語 En)（抜粋）
-（#から開始するとteratail上で拡大されて表示されてしまうので、便宜的に””で括っています）
-"#Based on the PROJECT GUTENBERG EBOOK #7151 CLELIA (8clel10.txt)
-all 0.244
-fanno 0.013
-lanificio 0.016
-soccorso 0.011
-figli 0.026
-volle 0.016
-nuovi 0.025
-così 0.162
-monte 0.016
-benché 0.035"
-言語モデルのファイル(仏語 Fr)
-"#Based on the PROJECT GUTENBERG EBOOK LE DOCTEUR OX #11589 (11589-8.txt)
-tm 0.076
-certain 0.017
-oncle 0.015
-nord 0.057
-aux 0.180
-te 0.013
-rouages 0.015
-vers 0.114
-instants 0.020
-scène 0.012
-rapidement 0.024
-besoin 0.013
-tua 0.012
-airs 0.016
-seulement 0.037
-moins 0.088
-énorme 0.011
-vieillard 0.056
-pu 0.036
-lorsque 0.025
-parler 0.016
-revint 0.017
-voici 0.029
-docteur 0.119
-tant 0.029
-ombre 0.012
-guide 0.024
-sombre 0.012
-ami 0.027
-file 0.012
-horloger 0.051
-horloges 0.025
-cents 0.036
-beaucoup 0.013
-is 0.044
-étaient 0.130
-it 0.020
-surface 0.013
-demi 0.027
-soit 0.019
-lendemain 0.023
-mots 0.023
-il 1.410
-raison 0.031
-soir 0.033
-goûter 0.013
-pauvre 0.019
-if 0.028
-lieues 0.019
-par 0.452
-pas 0.740
-quand 0.118
-puis 0.094
-impossible 0.013
-belle 0.028
-s 0.826
-édouard 0.011
-verne 0.019
-quant 0.019
-grand 0.074
-résister 0.011
-quiquendone 0.106
-pied 0.032
-heures 0.110
-cinq 0.064
-commune 0.016
-arriver 0.015
-vallée 0.012
-marches 0.013
-monter 0.017
-équipage 0.044
-dents 0.013
-elle 0.266
-cas 0.012
-moment 0.099
-commença 0.012
-vieux 0.037
-moyen 0.028
-pourquoi 0.037
-trouva 0.012
-premiers 0.020
-oeuvre 0.023
-travers 0.027
-in 0.086
-entre 0.079
-également 0.011
-dessous 0.033
-pittonaccio 0.019
-nacelle 0.032
-lequel 0.033
-without 0.011
-glacier 0.016
-bonne 0.016
-y 0.217
-demeurait 0.013
-the 0.261
-voulez 0.017
-demanda 0.052
-lest 0.012
-coup 0.037
-violence 0.013
-devint 0.012
-ci 0.037
-semblaient 0.013
-arrêter 0.013
-va 0.024
-conseiller 0.110
-colère 0.012
-part 0.015
-vivement 0.012
-souper 0.011
-guides 0.052
-vérité 0.013
-quelle 0.020
-vie 0.065
-jules 0.012
-retrouver 0.017
-difficile 0.016
-bloc 0.016
-plateau 0.019
-enfin 0.084
-événement 0.011
-brevent 0.012
-vain 0.013
-départ 0.031
-combien 0.012
-matelots 0.035
-forces 0.013
-provisions 0.027
-certaine 0.017
-vaste 0.011
-haut 0.040
-succès 0.013
-possible 0.027
-mot 0.021
-demande 0.012
-moi 0.122
-mon 0.188
-ayant 0.019
-compte 0.021
-usine 0.011
-mis 0.027
-santé 0.019
-naufragés 0.015
-perdus 0.019
-d 1.052
-bruit 0.055
-tomber 0.013
-mesure 0.020
-firent 0.012
-ordinaire 0.013
-parfois 0.013
-donations 0.020
-t 0.088
-où 0.190
-works 0.043
-dernier 0.024
-doit 0.015
-ballon 0.075
-ennemis 0.012
-autres 0.061
-vais 0.011
-pierre 0.055
-époque 0.024
-ah 0.039
-orgueil 0.019
-ça 0.012
-sommes 0.035
-bord 0.037
-sommet 0.040
-quoique 0.011
-fou 0.015
-rien 0.092
-est 0.540
-for 0.037
-livres 0.013
-peu 0.140
-depuis 0.087
-située 0.011
-disait 0.027
-vivres 0.012
-quinze 0.017
-voilà 0.028
-mont 0.061
-dernière 0.012
-avoir 0.084
-foi 0.013
-autrefois 0.017
-descendre 0.025
-be 0.028
-expérience 0.019
-peau 0.016
-soigneusement 0.011
-agreement 0.024
-préparatifs 0.019
-fois 0.076
-pouvaient 0.027
-exemple 0.017
-by 0.032
-zéro 0.020
-on 0.492
-une 0.940
-soudain 0.016
-"

問題点につき追記

2020/11/06 20:45

投稿

hankechi78

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -5,6 +5,8 @@
 最終的に、メイン関数で下記TextAnalyseクラスのidentifierLangue(modeles)メソッドを呼び出し、１行「このテキストの言語は（言語モデル名）である」と表示させたいと思っています。
 しかし、なぜか以下の通り表示されます。
+また、path2で読み込んでいるの分析用テキストがフランス語(fr)テキストなのにもかかわらず（分析用テキストの単語数は十分長いと思います・・・）、結果はオランダ語（nl）が結果として表示されているので、モデルごとの合計得点の比較（下記参照）もうまくいっていないように見受けられます。
 ### 発生している問題
 ```
@@ -230,8 +232,8 @@
 分析対象のテキストの例（フランス語）
 Le climatosceptique de la Maison-Blanche a besoin de tenir certaines de ses promesses et asseoir ainsi un quinquennat déjà contesté dans l'ensemble du pays.
 Le chat paraissait malade.
+（抜粋）
 言語モデルのファイル(英語 En)（抜粋）
 （#から開始するとteratail上で拡大されて表示されてしまうので、便宜的に””で括っています）
 "#Based on the PROJECT GUTENBERG EBOOK #7151 CLELIA (8clel10.txt)
@@ -452,20 +454,5 @@
 on 0.492
 une 0.940
 soudain 0.016
-être 0.138
-tricasse 0.132
-oh 0.011
-of 0.170
-cornbutte 0.270
-douze 0.012
-aperçut 0.013
-plus 0.605
-horizon 0.024
-ox 0.087
-ou 0.118
-sept 0.020
-or 0.135
-silence 0.024
-plan 0.011
-escalier 0.015
 "

一部自己解決のため質問の修正

2020/11/06 15:49

投稿

hankechi78

スコア8

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- Java　~~nio.file.NoSuchFileException~~エラー,for文
1	+ Java　MalformedInputExceptionエラー,for文

body CHANGED Viewed

@@ -8,16 +8,14 @@
 ### 発生している問題
 ```
+このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
-java.nio.file.NoSuchFileException: nl.dat
+java.nio.charset.MalformedInputException: Input length = 1
-このテキストの言語は : nl.dat
-java.nio.file.NoSuchFileException: fr.dat
-このテキストの言語は : nl.dat
-java.nio.file.NoSuchFileException: en.dat
+このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
-このテキストの言語は : nl.dat
-java.nio.file.NoSuchFileException: it.dat
+このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
-このテキストの言語は : nl.dat
-java.nio.file.NoSuchFileException: de.dat
+このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
-このテキストの言語は : nl.dat
+このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
+このテキストの言語は次のファイルの言語です : /Users/hankechi78/Desktop/Algorithmique et programmation/java/Exercice_note2/modeles_langues/nl.dat
 ```
 ### 該当のソースコード
@@ -37,8 +35,8 @@
 		ArrayList<Modele> modeles = new ArrayList<Modele>();
 //各言語ファイルの絶対パスを取得し、それを引数として各言語モデルにつきmodeleインスタンスを作成。identifierLangueメソッドを呼び出す前準備としてこれらのインスタンスを配列modelesに保存。
 		for (int i=0 ; i < files.length; i++) {
-			String fileName = files[i].getName();
+　　　　　　　String filePath = files[i].getAbsolutePath();
-			Modele modele = new Modele(fileName);
+			Modele modele = new Modele(filePath);
 			modeles.add(modele);
 		TextAnalyse t = new TextAnalyse("path2");
 		t.identifierLangue(modeles);
@@ -132,7 +130,7 @@
 			}
 		}
 		}
-		System.out.println("このテキストの言語は : " + list.get(0).getFile());
+		System.out.println("このテキストの言語は次のファイルの言語です : " + list.get(0).getFile());
 	}
 }
@@ -226,12 +224,7 @@
 }
 ```
-### 試したこと
-TextAnalyseクラスのlectureDossier() メソッドとModeleクラスをそれぞれ切り出し、独立のmain関数として動きを調べたところ、うまく作動しました。
-また、langueIdentifierクラスも、テストしたところpath1内の各言語モデルファイルの絶対パスをそれぞれ取得し、各言語につきmodeleインスタンスを作成するところまでは問題なくできているようです。
-どこが問題なのかがわかりません。
 ### 補足情報
 分析対象のテキストの例（フランス語）

補足

2020/11/06 15:44

投稿

hankechi78

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -230,9 +230,8 @@
 TextAnalyseクラスのlectureDossier() メソッドとModeleクラスをそれぞれ切り出し、独立のmain関数として動きを調べたところ、うまく作動しました。
 また、langueIdentifierクラスも、テストしたところpath1内の各言語モデルファイルの絶対パスをそれぞれ取得し、各言語につきmodeleインスタンスを作成するところまでは問題なくできているようです。
+どこが問題なのかがわかりません。
-問題はTextAnalyseクラスのidentifierLangue(ArrayList<Modele> modeles)メソッドにあるように思われますが、エラーメッセージが表示されるわけでもなく、どこが問題なのかがわかりません。
 ### 補足情報
 分析対象のテキストの例（フランス語）

一部解決したため修正

2020/11/06 15:30

投稿

hankechi78

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -3,7 +3,7 @@
 ディレクトリ「path1」内の複数のファイル（dat形式）をモデル（modele）として読み込み、このモデルに基づいて、「path2」で指定したファイルがどの言語で書かれているかを自動的に判断させるプログラムを以下の通り設計しています。
 最終的に、メイン関数で下記TextAnalyseクラスのidentifierLangue(modeles)メソッドを呼び出し、１行「このテキストの言語は（言語モデル名）である」と表示させたいと思っています。
-しかし、なぜか以下の通り全ての言語を認識してしまいます。また、java.nio.file.NoSuchFileExceptionも表示されます。
+しかし、なぜか以下の通り表示されます。
 ### 発生している問題
@@ -12,24 +12,12 @@
 このテキストの言語は : nl.dat
 java.nio.file.NoSuchFileException: fr.dat
 このテキストの言語は : nl.dat
-このテキストの言語は : fr.dat
-このテキストの言語は : nl.dat
 java.nio.file.NoSuchFileException: en.dat
 このテキストの言語は : nl.dat
-（中略）
 java.nio.file.NoSuchFileException: it.dat
-（中略）
-このテキストの言語は : en.dat
+このテキストの言語は : nl.dat
-このテキストの言語は : fr.dat
-（中略）
-このテキストの言語は : it.dat
 java.nio.file.NoSuchFileException: de.dat
-（中略）
-このテキストの言語は : en.dat
-このテキストの言語は : fr.dat
 このテキストの言語は : nl.dat
-このテキストの言語は : it.dat
-このテキストの言語は : de.dat
 ```
 ### 該当のソースコード
@@ -113,6 +101,8 @@
 //各モデルの合計得点を最後に比べるためのマップを予め作成。
 		HashMap<Modele, Double> scores = new HashMap<Modele, Double>();
+//最高得点を獲得したモデルを格納して最後に表示するための前準備。
+		ArrayList<Modele> list = new ArrayList<Modele>();
 //各モデルの合計得点を計算。
 		for (Modele modele: modeles) {
 			HashMap<String, Double> d = modele.getDict();
@@ -138,12 +128,15 @@
 		for (Modele key : scores.keySet()) {
 			if(scores.get(key).equals(scoreMax)) {
 				Modele keyCible = key;
-				System.out.println("このテキストの言語は : " + keyCible.getFile());
+				list.add(keyCible);
 			}
 		}
 		}
+		System.out.println("このテキストの言語は : " + list.get(0).getFile());
 	}
 }
 ```
 Modeleクラス

補足

2020/11/06 15:27

投稿

hankechi78

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -236,7 +236,7 @@
 ### 試したこと
 TextAnalyseクラスのlectureDossier() メソッドとModeleクラスをそれぞれ切り出し、独立のmain関数として動きを調べたところ、うまく作動しました。
-また、langueIdentifierクラスも、テストしたところpath1内の各言語モデルファイルの絶対パスをそれぞれ取得するところまでは問題なくできているようです。
+また、langueIdentifierクラスも、テストしたところpath1内の各言語モデルファイルの絶対パスをそれぞれ取得し、各言語につきmodeleインスタンスを作成するところまでは問題なくできているようです。
 問題はTextAnalyseクラスのidentifierLangue(ArrayList<Modele> modeles)メソッドにあるように思われますが、エラーメッセージが表示されるわけでもなく、どこが問題なのかがわかりません。

TextAnalyseクラスの補足

2020/11/06 14:48

投稿

hankechi78

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -84,7 +84,7 @@
 	}
 	public void lectureDossier() {
-//この部分は正常に作動。path2の分析対象のテキストを単語に分割。
+//この部分は正常に作動。path2の分析対象のテキストを単語に分割。テキストの言語を特定する上で、分割した各単語が各言語モデルの辞書（modeleクラスの注意書参照）に含まれているかを調べる必要があるため。
 		Path p = Paths.get(textFile);
 		Charset charset = Charset.forName("UTF-8");
 		try (BufferedReader reader = Files.newBufferedReader(p, charset)){
@@ -483,21 +483,4 @@
 silence 0.024
 plan 0.011
 escalier 0.015
-tel 0.015
-agissait 0.012
-pourtant 0.013
-troisième 0.012
-pays 0.016
-mers 0.015
-sol 0.017
-son 0.488
-bientôt 0.080
-loin 0.031
-rues 0.027
-parlait 0.012
-maître 0.190
-lune 0.012
-lieu 0.037
-plaisir 0.019
-jeunes 0.013
 "

Modeleインスタンスの説明を補足

2020/11/06 14:45

投稿

hankechi78

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -161,6 +161,7 @@
 public class Modele {
 	private String modeleFile;
+//modeleクラスのインスタンスは①単語と②その単語の重み（点数）をペアにした辞書を持つ（末尾の「補足情報」参照）。
 	private HashMap<String, Double> dictionaire;
 	public Modele(String file) {
@@ -258,7 +259,7 @@
 nuovi 0.025
 così 0.162
 monte 0.016
-benché 0.035
+benché 0.035"
 言語モデルのファイル(仏語 Fr)

プログラムの設計につき補足。

2020/11/06 14:41

投稿

hankechi78

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -2,7 +2,7 @@
 ディレクトリ「path1」内の複数のファイル（dat形式）をモデル（modele）として読み込み、このモデルに基づいて、「path2」で指定したファイルがどの言語で書かれているかを自動的に判断させるプログラムを以下の通り設計しています。
-最終的に、下記TextAnalyseクラスのidentifierLangue(modeles)メソッドを呼び出し、１行「このテキストの言語は（言語モデル名）である」と表示させたいと思っています。
+最終的に、メイン関数で下記TextAnalyseクラスのidentifierLangue(modeles)メソッドを呼び出し、１行「このテキストの言語は（言語モデル名）である」と表示させたいと思っています。
 しかし、なぜか以下の通り全ての言語を認識してしまいます。また、java.nio.file.NoSuchFileExceptionも表示されます。
 ### 発生している問題
@@ -34,7 +34,7 @@
 ### 該当のソースコード
-Identifierクラス
+Identifierクラス（メイン）
 ```
 package langueIdentifier;
@@ -47,6 +47,7 @@
 		File dir = new File("path1");
 		File files[] = dir.listFiles();
 		ArrayList<Modele> modeles = new ArrayList<Modele>();
+//各言語ファイルの絶対パスを取得し、それを引数として各言語モデルにつきmodeleインスタンスを作成。identifierLangueメソッドを呼び出す前準備としてこれらのインスタンスを配列modelesに保存。
 		for (int i=0 ; i < files.length; i++) {
 			String fileName = files[i].getName();
 			Modele modele = new Modele(fileName);
@@ -83,6 +84,7 @@
 	}
 	public void lectureDossier() {
+//この部分は正常に作動。path2の分析対象のテキストを単語に分割。
 		Path p = Paths.get(textFile);
 		Charset charset = Charset.forName("UTF-8");
 		try (BufferedReader reader = Files.newBufferedReader(p, charset)){
@@ -107,7 +109,11 @@
 	}
 	public void identifierLangue(ArrayList<Modele> modeles) {
+//このメソッドで分析対象のテキストの言語を特定。分析対象のテキストに含まれている各単語がmodeleインスタンスの辞書に含まれていて、かつ点数の高い単語が多く含まれているほど、分析対象のテキストがそのmodeleの言語である可能性が高くなる。Scoreクラスのメソッドを用いて各モデルの点数を計算している。
+//各モデルの合計得点を最後に比べるためのマップを予め作成。
 		HashMap<Modele, Double> scores = new HashMap<Modele, Double>();
+//各モデルの合計得点を計算。
 		for (Modele modele: modeles) {
 			HashMap<String, Double> d = modele.getDict();
 			Score score = new Score(modele);
@@ -118,6 +124,7 @@
 			Double totalScore = score.getScore();
 			scores.put(modele, totalScore);
 			}
+//合計得点を比較。
 		Object firstModele = scores.keySet().toArray()[0];
 		Double scoreMax = scores.get(firstModele);
 		for (int k = 1 ; k < scores.size(); k++) {
@@ -127,6 +134,7 @@
 				scoreMax = scoreK;
 			}
 		}
+//最高得点を取ったモデルを特定し、分析対象のテキストがそのモデルの言語であることをユーザーに伝える。
 		for (Modele key : scores.keySet()) {
 			if(scores.get(key).equals(scoreMax)) {
 				Modele keyCible = key;
@@ -276,39 +284,6 @@
 pu 0.036
 lorsque 0.025
 parler 0.016
-après 0.146
-cent 0.029
-milieu 0.049
-immense 0.023
-précautions 0.012
-glace 0.087
-fidèle 0.017
-zacharius 0.151
-brick 0.084
-chamonix 0.021
-dut 0.013
-choses 0.020
-suivre 0.015
-direction 0.013
-telle 0.017
-gaz 0.049
-monsieur 0.083
-lumière 0.013
-subitement 0.011
-ceux 0.021
-uns 0.016
-eut 0.051
-notables 0.031
-quatre 0.059
-argent 0.012
-marche 0.040
-soixante 0.019
-fut 0.235
-tête 0.072
-avions 0.016
-ait 0.012
-élevé 0.013
-n 0.531
 revint 0.017
 voici 0.029
 docteur 0.119