python word2vecのコーパスについて

Question

表題の件で質問させてください
かなり初歩的な質問になります

word2vecでモデル生成時に使うコーパスの作り方がどのように作るべきものなのか分からず悩んでいます
あるEXCEｌシートから特定の列のテキストを抜出し、そのテキストに対して形態素解析をさせ、その結果をリストに格納しています。
この時のリストへの格納の仕方なのですが、例えば以下のようなテキストを'名詞','形容詞','動詞'で形態素解析したとします

```テキスト
pythonは、プログラミング言語である。
コードがシンプルで扱いやすく設計されており、C言語などに比べて、さまざまなプログラムを分かりやすく、少ないコード行数で書けるといった特徴がある
```

この際、結果をリストに格納する場合の方法なのですが①、②のどちらで格納すべきなのでしょうか？
①に関しては文章を一つの要素としていますが'python  プログラミング'という単語になっているためテキストファイル等に別途起こさなければword2vecのモデルには渡せないないかなと考えます

②に関しては単語ごとに一つの要素となりますが単語の前後の言葉の関係性が取れるのかなと疑問に感じます


```結果
test = []

①
test[0] = 'python  プログラミング'  
test[1] = '言語 コード シンプル 扱う やすい ~ '

②
test[0] = 'python' 
test[1] = 'プログラミング' 
test[2] = '言語'
test[3] = 'コード' 
```

①はテキストの名詞だけをリストに格納し、そのリストをテキストファイルに書き起こし、テキストファイルを学習モデルとして渡すことで単語の類似度は確認できました

②はテキストの名詞だけをリストに格納し、そのリストを学習モデルとして渡すことで単語の類似度は確認できました

両方で処理自体は実行できたのですが、webなどで検索すると、コーパスは空白で区切られたテキスト、と書かれている記事があれば、②のように形態素解析した内容をリストに格納して結果を求める方法と両方のやり方が紹介されており、どちらが正しい手法なのか知識が浅いため疑問に感じるためアドバイス頂けたら幸いです

またwindowパラメータは前後の単語を拾う際の窓の広さを決めるというよう理解しているのですが、①はこれが有効に働いている気がするのですが、②は単語ごとに別の要素となっていますが、それでもこのパラメータは有効に働いているのでしょうか？

機械学習自体の知識がなく、かなり的外れな質問をして申し訳ありません
アドバイス宜しくお願い致します

```python
import pandas as pd
from janome.tokenizer import Tokenizer
from collections import Counter
from gensim.models import word2vec


#ファイル指定
input_file_name = (r'C:\Users\Desktop\Book.xlsm')

#ファイル読み込み
input_book = pd.ExcelFile(input_file_name)

#シート名取得(sheet_namesメソッドでExcelブック内の各シートの名前をリスト型で取得)
input_sheet_name = input_book.sheet_names

#シート総数取得
num_sheet = len(input_sheet_name)

#シート総数表示
print('シートの数：', num_sheet)
#シート名表示
print('シートの名前：',input_sheet_name)
#type確認
print('type :',type(input_book))


input_sheet_df = input_book.parse(input_sheet_name[1],
                                  skiprows = 5,
                                  skip_footer = 1,
                                  usecols = 'Z,AD:AF',
                                  names = range(0,4))


ret = []

#1パターン
for wordlist in input_sheet_df[1]:
    print(wordlist)
    strword = ''
    tokens = t.tokenize(str(wordlist))    
    for token in tokens:
        #print(token)
        if token.part_of_speech.split(',')[0] in ['名詞','形容詞','動詞']:
            strword = strword + token.surface + ' '
    ret.append(strword)

#2パターン
#for wordlist in input_sheet_df[1]:
#    #print(wordlist)
#    #strword = ''
#    tokens = t.tokenize(str(wordlist))    
#    for token in tokens:
#        #print(token)
#        if token.part_of_speech.split(',')[0] in ['名詞','形容詞','動詞']:
#            ret.append(token.base_form)

print(ret)

    
#word2vec
#1パターン
#txtdata = word2vec.LineSentence(r'C:/Users/Desktop/test.txt')
#model = word2vec.Word2Vec(txtdata, size=100, min_count=5, window=3, iter=200, seed=0 )
#model.save('C:/Users/Desktop/test.model')
word2vec_model = word2vec.Word2Vec.load('C:/Users/Desktop/test.model')

#2パターン
#model = word2vec.Word2Vec([ret], size=100, min_count=1, window=1, iter=200, seed=0 )
#model.save('C:/Users/Desktop/test.model')
#word2vec_model = word2vec.Word2Vec.load('C:/Users/Desktop/test.model')


ttt = word2vec_model.wv.most_similar(positive=['中間'], topn=10) 
for item in ttt:
    print(item[0], item[1])    





```

Accepted Answer

難しく考える必要はありません。公式ドキュメント読みに行くのが一番手っ取り早いです。

[gensim: models.word2vec – Deep learning with word2vec#gensim.models.word2vec.Word2Vec](https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec)

> Parameters:	
> sentences (iterable of iterables) – The sentences iterable can be simply a list of lists of tokens, but for larger corpora, consider an iterable that streams the sentences directly from disk/network. See BrownCorpus, Text8Corpus or LineSentence in word2vec module for such examples. If you don’t supply sentences, the model is left uninitialized – use if you plan to initialize it in some other way.

トークンのリストのリストで良い、メモリ上に乗り切らないときはBrownCorpus, Text8Corpus or LineSentenceとか活用しろと書いてあります。

[gensim: models.word2vec – Deep learning with word2vec#gensim.models.word2vec.LineSentence](https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.LineSentence)
> Simple format: one sentence = one line; words already preprocessed and separated by whitespace.

こっちは空白で分かち書き、行で文区切りされたファイルを読みます。

なので結論としては、どっち使っても大丈夫です。windowパラメータもどっちでも効きます。

関連した質問