実行したいこと
TF-IDFでテキストに含まれる単語の重要度を算出した後、SVDを用いて次元削減を行いました。
しかし、データフレームに出力しようとすると、どの単語が次元削減後に残っているのか1行目に変数名として出力できません。なので、どの単語が次元削減後に残っているのか変数名として出力させる方法がわかる方、ご教授願います。
以下にコードを載せておきます。
PYTHON
1for i in ['description2']: 2 print (i) 3 tfidf_vec2 = TfidfVectorizer(analyzer='word',ngram_range=(1,2)) 4 y = tfidf_vec2.fit_transform(df[i].values.tolist()) 5 6text_svd = TruncatedSVD(n_components=n_comp, algorithm='arpack',random_state=9999) 7df_svd = pd.DataFrame(text_svd.fit_transform(x)) 8df_svd.head()
output
1 0 1 2 3 4 5 6 7 8 9 ... 30 31 32 33 34 35 36 37 38 39 20 -7.501194e-19 -5.083681e-19 9.256121e-19 -9.811705e-19 -1.321589e-18 1.057663e-18 -3.449086e-19 4.886214e-19 6.208254e-19 -8.992375e-20 ... 5.832382e-19 -8.624896e-19 3.031554e-18 3.108539e-19 6.263407e-19 6.603455e-19 1.085247e-18 4.090040e-19 1.496029e-19 -1.805121e-18 31 2.346153e-09 4.267013e-03 2.779447e-01 4.229857e-16 -9.296342e-04 -8.135699e-17 -2.331004e-06 5.270119e-06 4.421652e-06 1.176099e-17 ... 3.130004e-01 -2.671972e-04 -5.242327e-16 -1.175265e-02 -7.096408e-16 -1.203920e-17 7.929157e-06 -8.166032e-08 -1.447494e-16 4.615199e-17 42 6.696090e-19 4.720389e-19 -7.611032e-19 1.091989e-18 1.069477e-18 -9.744506e-19 2.907909e-19 -4.600069e-19 -6.146886e-19 3.387167e-19 ... -6.176979e-19 7.161840e-19 -2.602259e-18 -3.796497e-19 -5.145963e-19 -6.148210e-19 -8.777409e-19 -4.519834e-19 -1.234023e-19 1.536307e-18 53 2.995120e-19 2.087760e-17 -8.396638e-18 -1.235932e-17 3.404933e-17 8.440509e-18 6.103069e-18 4.369044e-17 7.992710e-18 -5.289932e-18 ... 4.392430e-18 1.960763e-17 -1.096823e-17 -4.950404e-18 -4.854007e-18 2.160676e-18 9.344892e-19 1.026864e-17 -1.137194e-17 -1.883769e-17 64 1.721094e-18 1.073870e-18 -1.928538e-18 2.353051e-18 2.504178e-18 -2.702419e-18 5.576733e-19 -9.236454e-19 -1.249903e-18 5.142890e-19 ... -1.483040e-18 1.904206e-18 -6.894953e-
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。