論文の書誌情報を抜き出して、各論文群ごとのtfidfの値をpythonで算出したい。
その後COS類似度を計算したい。
研究で、WOS(Web of Science)からダウンロードした論文を
その内容に応じて群に分けたうえで、pythonを使って
その群におけるtfidfを算出しようとしています。
各群のtfidf値の高いものから表示させることは出来ているのですが、
各々のtfidfの数値を表示することができません。
該当のソースコード
import numpy as np
import pandas as pd
data=pd.read_csv("artificial_heart.csv",encoding="utf-8",header=1)
AA=[' ']*28
n=0
for line in range(0,len(data)):
for n in range(0,28):
if(data['_C'][line]==n+1):
AA[n]=AA[n]+' '+str(data["AB"][line])
docs=AA
vectorizer = TfidfVectorizer(use_idf = True,stop_words='english')
tfidfs = vectorizer.fit_transform(docs).toarray()
index = tfidfs.argsort(axis=1)[:,::-1]
feature_names = np.array(vectorizer.get_feature_names())
feature_words = [feature_names[doc[:n]] for doc in index]
df=pd.DataFrame(feature_words)
df.to_csv('artificial_heart_tfidf.csv')
df
試したこと
引数で設定できると思い探してみたのですが、ありません。
どうかよろしくお願いいたします。
補足情報(FW/ツールのバージョンなど)
_Cが群、ABがtfidfを測りたい文章です。
_Cが28群あります。
ここにより詳細な情報を記載してください。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。