CentOS上のサーバー側やWEBのプログラムを JAVA1.53 やJSPで開発しています。
現在の問題は、
CentOS上のあるフォルダ配下(再帰処理は作成済み)のファイルを全て、
何があるかを取得したいのです。
具体的には、
・ファイルサイズ、
・パス、
・ファイル名、
・ファイル内の文章に使われている言語(日本語や中国語、英語など)を判断
などです。
すでに、TAKIを使い、どのドキュメントでも内容をStringとして取得までできています。
が、そのドキュメントに使われている(少なくとも先頭数十文字)が、
日本語か、中国語か、英語か、を判断したいのです。
ずっと調査やテストプログラムを作っていますが、
今までテストプログラムを作れたのは、
1.Googleの翻訳サービスを使った言語判定方法。
※「http://ajax.googleapis.com/ajax/services/language/detect」
⇒ ネットで実現方法を見つけて、なんとか動くようにしたのですが、
動かしてみたところ、
エラーメッセージが出て、Googleのサイトに誘導され、見たところ、現在は、有料化されていると判明し、断念。
2.次に、language-detection-library-for-java で言語判定する方法。
これもネットで見つけて、プログラムしたのですが、サーバーで動かしたところ、
下記のようにJAVAのバージョンが違う?というエラーがでて動かないことが判明。
「java.lang.UnsupportedClassVersionError: Bad version number in .class file (unable to load class com.cybozu.labs.langdetect.LangDetectException)」
他に方法がないか?、ずっと、ネットを検査していますが、見つかっていません。
希望は、
元々のJAVA事態に、言語判定機能があれば、それを使いたいのですが、
なければ、外部ライブラリで、何かご存知のものはありますでしょうか?
どの種類のドキュメントでも、本文をString変数に取得可能な状態なので、
String変数内の文字により、どの言語か?を判断できればよいのですが...
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2016/07/13 08:31
2016/07/13 12:33