単語のデータセットを作成

Question

###やりたいこと
機械学習を行うためのデータセットを作成しようとしています。
具体的には一つの文章（小説など）のテキストファイルを入力として渡すと、
そのテキストファイル内容のジャンルを出力するようにしたいです。
実装しようとしているのは

１．テキストファイル名を入力する
２．指定したテキストファイルの中身を形態素解析する（Mecabを用いる）
３．形態素解析結果を特定の品詞（名詞や動詞）のみに絞り込む（ジャンル判定に影響があるもののみを使いたいため）
４．絞り込んだ単語（品詞？）についてTF-IDF値を求める（本来TF-IDF値は複数の文章から求めるものだが、１つの文章内での相対的な特徴量を求めるために採用している）
５．単語とTF-IDF値のセットをデータセットとして用意する（例：[自転車, 0.33412]）

以上の５ステップを考えています。
そして現在は３ステップまで実装が完了しました。
しかし、４ステップ目をどのように実装すれば良いのかが分かりません。
また３ステップ目と４ステップ目の順番が正しいのか（逆ではないのか）を教えていただきたいです。

以下に実装途中のコードを記させていただきます。
```
 -*- coding: utf-8 -*-

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import sys
import MeCab

#CountVectorizer():文書ごとの単語の出現頻度を取得
count = CountVectorizer()

m = MeCab.Tagger ("-Ochasen")

doc = input('select file(ex, ○○.txt):')
f = open(doc, "r",encoding = "utf-8")
text = f.read()
f.close()

#絞り込みの基準を設定
"""level = float(input('set level(0.0 <= level <= 1.0):'))"""

#文字列を改行位置で区切って分割する
chunks = m.parse(text).splitlines()

#絞り結果を格納
sels = []

#絞り込み
for chunk in chunks:
    print(chunk)
    #↓[コーヒー    コーヒー    コーヒー    名詞-一般]のこと
    cols = chunk.split('	') 
    if len(cols) >= 4:
        parts = cols[3].split('-')
        #名詞or動詞で始まっている場合　→　真
        if parts[0].startswith('名詞') or parts[0].startswith('動詞'):
            #要素を追加
            sels.append(chunk)

#絞り結果
print('
%s 絞り込み結果↓
' %doc)
for sel in sels:
    print(sel)
```
コード内には質問内容に含まれてない部分がありますが、ご了承ください。

今回初めて機械学習を行うので質問が丸投げのような状態になってしまい、
申し訳ございません。

説明不足なところが多々あると思うので、質問をしていただけると非常にありがたいです。

###実装環境
言語：python3
ＯＳ：ubuntu

Answer

> 説明によるとtfidf.fit_transformは絞り込みを行った後の単語のみからTF-IDF値を計算しているので、
> 元のテキストファイルの文章内でのTF-IDF値とは異なる値を取ってしまうということでしょうか？

tfidf.fit_transformはTF-IDF値の計算の考え方に基づき計算している関数に過ぎません。したがって、ご質問の回答は、ほぼTF-IDF値とは何かに近いものなので、私が説明するよりも専門図書などで確認することをお勧めします。

お示しいただいたコードの件ですが、inputとoutput、さらには期待するoutputがよくわからないので何とも言えませんでした。まずは、コード上のtfidfが期待した通りの計算結果になっていることをテストしてみていはいかがでしょうか？

Answer

前後のコードをよく見ずに回答した部分がありましたので、改めて説明します。
私のサンプルコードでいうselsには形態素解析によって指定した品詞のみがひとつの文として結合された要素になります。
例えば、「私は駅に行く」を形態素解析にかけると"私","は","駅","に","行く"となります。このうち、名詞と動詞のみを使うとすると、"私","駅","行く"になりますが、TF-IDFを算出するためには、この3つをつなげて"私　駅　行く"とひとつの文に結合する必要があります。ただし、この方法は私が使っている方法であって、もしかすると形態素の配列のまま処理できるかもしれません。そのあたりは公式ドキュメントを確認してください。

tfidf.fit_transformは、この"私　駅　行く"をあらためて、"私","駅","行く"という単語に分解してTF-IDFの計算処理をします。処理結果は、to_array()メソッドで取得できる計算結果とget_feature_names()で取得できる計算結果に対応する単語の配列に分かれます。実は、to_array()に含まれる計算結果の順番はインプットの語順通りである保証はありません。そのため、計算結果の配列と単語との対応関係を明示するためにget_feature_names()で単語を確認する必要があります。

正直なところ、言葉で説明してもイメージがつかみにくいところが多々あるかと思いますので、英文を事例に上記の処理を行ってみるとtfidf.fit_transformが何を行い、その結果がどのようなものになるのかがつかめるかと思います。その上で、希望する処理をするためにはどのようなデータを与えるべきかを検討されることをお勧めします。
あえて、英文が始めることをお勧めするのは、tfidf.fit_transformは（それ以外もおおむねそうなのですが）英文のように単語間がスペースで区切られていることが前提となっている処理であることを理解するためです。また、処理の単位である文章をtfidfがどのように認識しているのかもいろいろと実験するとわかるかと思います。

Answer

TFIDF値算出に使用する関数についてこだわりがないようでしたらTfidfVectorizerを使った以下のようなコードでいかがでしょうか？

```python
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
result = tfidf.fit_transform(sels) # TFIDF値の算出

tfidf_arr = result.toarray()       # 値の取得
tfidf_FeatureName = result.get_feature_names() # 単語名称の取得

```

このtfidf_arrですが、行は文章になります。列は単語になりますが、列番号と単語の対応関係はtfidf_FeatureNameに格納しています。したがって単語単位のTFIDF値を見たい場合は、tfidf_FeatureNameからtfidf_arrを検索するイメージになります。

関連した質問