Java-word2vecで日本語の関連単語を出力したい

Question

### 前提・実現したいこと

word2vecで入力した単語（日本語）の関連単語を出力するプログラムを作りたいです。
[このサイト](http://krr.blog.shinobi.jp/java_deeplearning/java%20deeplearning4j%20%E5%8D%98%E8%AA%9E%E3%81%AE%E3%83%99%E3%82%AF%E3%83%88)のサンプルプログラム1を使いました。
27行目のraw_sentences.txtを日本語のウィキペディア全文（分かち書きにしたもの）のデータに置き換えただけでできると思い、実行したのですが、関連単語が出力されませんでした。
エラーはありませんでした。
英語ではなく日本語で実行できるようにするにはどうすればいいでしょうか。
教えていただけると幸いです。


### 該当のソースコード
```Java
import java.io.File;
import java.io.IOException;
import java.util.Collection;
 
import org.deeplearning4j.models.embeddings.loader.WordVectorSerializer;
import org.deeplearning4j.models.word2vec.Word2Vec;
import org.deeplearning4j.text.sentenceiterator.LineSentenceIterator;
import org.deeplearning4j.text.sentenceiterator.SentenceIterator;
import org.deeplearning4j.text.sentenceiterator.SentencePreProcessor;
import org.deeplearning4j.text.tokenization.tokenizer.TokenPreProcess;
import org.deeplearning4j.text.tokenization.tokenizer.preprocessor.EndingPreProcessor;
import org.deeplearning4j.text.tokenization.tokenizerfactory.DefaultTokenizerFactory;
import org.deeplearning4j.text.tokenization.tokenizerfactory.TokenizerFactory;
 
/**
 * DeepLearning4jでWord2Vecを行うサンプルプログラム
 * @author karura
 */
public class Word2VecTest1
{
 
    public static void main(String[] args) throws IOException
    {
        // コーパス(文章集)データの読み込み
        // 読み込み時に文字をすべて小文字に変換する
        System.out.println( "Load data..." );
        File                f       = new File( "input/raw_sentences.txt" );
        SentenceIterator    ite     = new LineSentenceIterator( f );
        ite.setPreProcessor( new SentencePreProcessor()
        {
            @Override
            public String preProcess( String sentence ){ return sentence.toLowerCase(); }
        });
         
        // 文章を単語に分解
        // 分解時に単語を小文字に、半角数を"d"に変換する
        System.out.println( "Tokenize data..." );
        final EndingPreProcessor    preProcessor    = new EndingPreProcessor();
        TokenizerFactory            tokenizer       = new DefaultTokenizerFactory();
        tokenizer.setTokenPreProcessor( new TokenPreProcess()
        {
            @Override
            public String preProcess( String token )
            {
                token       = token.toLowerCase();
                String base = preProcessor.preProcess( token );
                base        = base.replaceAll( "\d" , "d" );
                return base;
            }
        });
         
        // モデル作成
        System.out.println( "Build model..." );
        int     batchSize   = 1000;         // 1回のミニバッチで学習する単語数
        int     iterations  = 3;
        int     layerSize   = 150;
         
        Word2Vec    vec     = new Word2Vec.Builder()
                .batchSize( batchSize )         // ミニバッチのサイズ
                .minWordFrequency( 5 )          // 単語の最低出現回数。ここで指定した回数以下の出現回数の単語は学習から除外される
                .useAdaGrad( false )            // AdaGradを利用するかどうか
                .iterations( iterations )       // 学習時の反復回数
                .learningRate( 0.025 )          // 学習率
                .minLearningRate( 1e-3 )        // 学習率の最低値
                .negativeSample( 10 )           //
                .iterate( ite )                 // 文章データクラス
                .tokenizerFactory(tokenizer)    // 単語分解クラス
                .build();
         
        // 学習
        System.out.println( "Learning..." );
        vec.fit();
         
        // モデルを保存
        System.out.println( "Save Model..." );
        WordVectorSerializer.writeWordVectors( vec , "output/words.txt" );
         
        // 評価1(二つの単語の類似性)
        // コサイン距離
        System.out.println( "Evaluate model..." );
        String  word1       = "people";
        String  word2       = "money";
        double  similarity  = vec.similarity( word1 , word2 );
        System.out.println( String.format( "The similarity between 「%s」 and 「%s」 is %f" , word1 , word2 , similarity ) );
         
        // 評価2(ある単語に最も意味が近い言葉)
        String  word        = "day";
        int     ranking     = 10;
        Collection<String>  similarTop10    = vec.wordsNearest( word , ranking );
        System.out.println( String.format( "Similar word to 「%s」 is %s" , word , similarTop10 ) );
         
         
    }
 
}
```

Accepted Answer

形態素解析器(Tokenizer)がDefaultなのが問題なのでは。

日本語用の解析器を使ってみてはどうか。

[deeplearning4jで日本語WikipediaのWord2Vecを作る - APITORE BLOG](http://blog.apitore.com/2016/09/19/deeplearning4j-jwikipedia-word2vec/)

[Kuromojiについて - Qiita](https://qiita.com/yamamotoshu1127/items/ae081c8fa1c9b2804f83)

前提・実現したいこと

該当のソースコード

関連した質問