Mecabでcsvのデータを一行ずつ読み込み、品詞のカウントをしたい。

前提・実現したいこと

添付ファイルのtweet.csvを読み込みMecabで一行ずつ品詞のカウントをする処理をしてたいと考えています

最終的な出力を↓のようにしたいです
品詞数(右の合計値),名詞,動詞,形容詞,副詞,助詞,接続詞,助動詞,連体詞,感動詞,*,
31,8,5,2,7,8,3,0,0,0,0,
53,8,8,4,5,8,3,0,0,0,0,

そこで("にわににわにわとりがいる")部分をrowに変えて処理しようとしました。
そうした所、エラー文はないのですが、リストの繰り返し処理がされていない状況です。
初歩的なミスも多いと思いますがよろしくお願いいたします。

発生している問題・エラーメッセージ

該当のソースコード

python
1
2import MeCab
3import csv
4import sys
5
6hcount = {}
7
8with open("tweet.csv") as f:
9  for row in csv.reader(f):
10    row = str(row).lower()#str型に型変換
11
12    dicdir = '-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-unidic-neologd'
13    mecabTagger = MeCab.Tagger(""+ dicdir) #("-Ochasen" + mecab-unidic-neologd)
14    node = mecabTagger.parseToNode(row) 
15
16while node:
17    hinshi = node.feature.split(",")[0]
18    if hinshi in hcount.keys():
19        freq = hcount[hinshi]
20    if hinshi in hcount.keys():
21        hcount[hinshi] = freq + 1
22    else:
23        hcount[hinshi] = 1
24    node = node.next
25for key,value in hcount.items():
26     #print(key+":"+str(value))
27     print(hcount)

出力

{'BOS/EOS': 2, '補助記号': 6, '名詞': 8, '記号': 5}
{'BOS/EOS': 2, '補助記号': 6, '名詞': 8, '記号': 5}
{'BOS/EOS': 2, '補助記号': 6, '名詞': 8, '記号': 5}
{'BOS/EOS': 2, '補助記号': 6, '名詞': 8, '記号': 5}

補足情報（FW/ツールのバージョンなど）

google colaboratoryを使用しています。

quickquip

2021/07/26 03:10

エラーが出たコードを貼りましょう（row = str(row).lower() が無かったんじゃないの? という疑念を捨てきれません）

saiy

2021/07/26 03:16

ご指摘の通り row = str(row).lower()の追加前のエラー文を載せていました。ありがとうございます

quickquip

2021/07/26 03:30

ということは「エラーはないが希望通りに動いてない」という状況でしょうか。現在のコードと、その結果があるとよいと思います。

行動規範の内容に同意します

回答1件

ベストアンサー

while以下のインデントがずれています。
意図したコードは

python
1
2with open("tweet.csv") as f:
3  for row in csv.reader(f):
4    row = str(row).lower()#str型に型変換
5
6    dicdir = '-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-unidic-neologd'
7    mecabTagger = MeCab.Tagger(""+ dicdir) #("-Ochasen" + mecab-unidic-neologd)
8    node = mecabTagger.parseToNode(row) 
9
10    hcount = {}
11
12    while node:
13        hinshi = node.feature.split(",")[0]
14        if hinshi in hcount.keys():
15            freq = hcount[hinshi]
16        if hinshi in hcount.keys():
17            hcount[hinshi] = freq + 1
18        else:
19            hcount[hinshi] = 1
20        node = node.next
21
22    for key,value in hcount.items():
23         print(key, value)

かと。

whileの中に無駄があるので直すと

python
1    while node:
2        hinshi = node.feature.split(",")[0]
3        if hinshi in hcount:
4            freq = hcount[hinshi]
5            hcount[hinshi] = freq + 1
6        else:
7            hcount[hinshi] = 1
8        node = node.next

という感じでしょうか。（if hinshi in hcount.keys()は辞書が大きさに比例して時間がかかります）

もうちょっとPythonらしくすると

python
1from collections import defaultdict
2(略)
3    hcount = defaultdict(int)
4
5    while node:
6        hinshi = node.feature.split(",")[0]
7        hcount[hinshi] += 1
8        node = node.next

でしょう。
defaultdict の使用例の3つめを参考

出力部分は

python
1    for values in zip(*hcount.items()):
2         print(values)

の方がそれらしいでしょうか。

投稿2021/07/26 04:16

編集2021/07/26 04:36

quickquip

総合スコア11310

saiy

2021/08/03 05:11

非常に参考になりました。遅れましたがベストアンサーにさせていただきます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Mecabでcsvのデータを一行ずつ読み込み、品詞のカウントをしたい。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

出力

補足情報（FW/ツールのバージョンなど）

関連した質問