形態素分析をし、単語リストを作成したいです（共起ネットワーク作成の前処理）（janome）

前提・実現したいこと

共起ネットワーク作成の前処理として、
CSV形式、Excel形式のファイル（Twitterより取得）に対し、形態素分析をし、
リスト（行・列あり）形式の単語リストを作成したいと考えております。

あれこれ検索しましたが、前処理工程が省かれていたり、1冊の書籍文章に対し形態素分析をかけていたりと、
csv/Excel形式のファイルの処理の参考になるものがなかなか見つからず、
最終的に、以前ワードクラウド作成時に活用した形態素分析のコード（★以下）が使えないか模索しております。

（なお、Google ColaboratoryでPythonを使っております。）

発生している問題・エラーメッセージ

以下が参考にしている、ワードクラウド作成時に使った形態素分析のコードです。
ワードクラウド用であるため、1行になってアウトプットされてしまいます。
行と列のある、リストとしてアウトプットしたいのですが、私の勉強不足ゆえにできずに困っております。
大変恐縮ではございますが、お力添えいただけますと幸いです。

＜アウトプットイメージ（欲しいもの：行/列に整理）＞
天
この世,天,働き,心,万物,天地,位,妨げ,安楽,上下,自由自在,身,衣食住,みな,趣意,物,賤
下人,人間,有様,世界,相違
次第,明らか
智,語,実,教,愚人

＜アウトプットイメージ（下記のワードクラウド前処理用コード利用時：1行）＞
天, この世天働き心万物天地位妨げ安楽上下自由自在身衣食住みな趣意物賤,下人人間有様世界相違,次第明らか, 智語実教愚人

該当のソースコード

Python
1
2#形態素分析ライブラリ（janome）をインストール
3!pip install janome
4
5#形態素分析
6from janome.tokenizer import Tokenizer
7text_file = open("Twitter_キーワード「XXX」.csv")
8full_text = text_file.read()
9full_text = full_text.replace("\n","")
10
11t = Tokenizer()
12tokens = t.tokenize(full_text)
13
14#分析結果から助詞、助動詞、記号を抜いたワードリスト作成
15word_list = []
16for token in tokens:
17  word = token.surface
18  partOfSpeech = token.part_of_speech.split(',')[0]
19  partOfSpeech2 = token.part_of_speech.split(',')[1]
20  if (partOfSpeech == "名詞") or (partOfSpeech == "形容詞") :
21    if (partOfSpeech != "記号"):
22      if (partOfSpeech2 != "非自立") and (partOfSpeech2 != "代名詞") and (partOfSpeech2 != "数"):
23        word_list.append(word)
24words_XXX=" ".join(word_list)
25print(words_xxx)  
26

試したこと

・「full_text = full_text.replace("\n","")」が1行になってしまう要因かと思って削除したのですが、結果は変わりませんでした。
・自分なりに「forin」構文を使ってみたのですが、上手くいきませんでした（使い方が間違っていると思われます）。

補足情報（FW/ツールのバージョンなど）

Google ColaboratoryでPythonを使っております。

ebal

2020/10/27 10:59

参考コードのword_listが作成できているのでないならば取得するCSV，あるいはExcelデータの形式に関する記載をお願いします．できているのならば読み込み部分についは質問事項から外したほうが良いかもしれません．また，「行と列のあるリスト」という表現から最終成果物がイメージできません．最終的に欲しいデータの形式も記載して頂きたいです．例えば，参考コードのワードリスト縦に並べたもの，といった簡単な記述でもあるとないとでは大違いです．

akiaki3

2020/10/27 11:20

ebal様拙い質問文に対し、丁寧にご指摘いただきまして誠にありがとうございます。 word_listは、失敗版（列なし）については、作成しております。ですので、ご指摘の通り読み込み部分削除いたしました。また、アウトプットイメージ（正解版）と（失敗版）を追記させていただきました。今後質問する際にもいただいたアドバイス生かしていきたいと思います。重ねて、ありがとうございました。

ebal

2020/10/27 11:26 編集

修正ありがとうございます．欲しいアウトプットイメージを見てもどういう基準で整理されたのか不明です．何も知らない私が見た場合いっそもとの方が整理されているように見えますが…… 行は何を意味し，列は何を意味するのか記載してください．

行動規範の内容に同意します

回答1件

ベストアンサー

入力ファイルの中身がわからないので想像で回答します。

python
1from janome.tokenizer import Tokenizer
2def main(text):
3    t = Tokenizer()
4    word_list = []
5    for t in t.tokenize(text):
6        parts = t.part_of_speech.split(",")
7        if parts[0] not in ["助詞","助動詞","記号"]:
8            if t.surface == ",":
9                print(",".join(word_list))
10                word_list = []
11            else:
12                word_list.append(t.surface)
13    print(",".join(word_list))
14
15
16if __name__ == "__main__":
17    with open("Twitter_キーワード「XXX」.csv", "r") as text_file:
18        full_text = text_file.read().replace("\n","")
19    main(full_text)

投稿2020/10/28 05:38

fsoe

総合スコア163

akiaki3

2020/10/28 08:17

fsoe様お世話になっております。入力内容、表現の仕方がわからず、ご提示できなかったところ、想像でご回答いただきありがとうございます。いただいたコードを使ってみたところ、欲しかったアウトプットが出てきました！！長い時間格闘しておりましたので、大変助かりました。感動しております。重ねてとなりますが、本当に、本当にありがとうございました。

行動規範の内容に同意します