質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.31%
Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

3727閲覧

Mecabでcsvのデータを一行ずつ読み込み、品詞のカウントをしたい。

saiy

総合スコア2

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/07/26 03:06

編集2021/07/26 03:34

前提・実現したいこと

添付ファイルのtweet.csvを読み込みMecabで一行ずつ品詞のカウントをする処理をしてたいと考えています

最終的な出力を↓のようにしたいです
品詞数(右の合計値),名詞,動詞,形容詞,副詞,助詞,接続詞,助動詞,連体詞,感動詞,*,
31,8,5,2,7,8,3,0,0,0,0,
53,8,8,4,5,8,3,0,0,0,0,

そこで("にわににわにわとりがいる")部分をrowに変えて処理しようとしました。
そうした所、エラー文はないのですが、リストの繰り返し処理がされていない状況です。
初歩的なミスも多いと思いますがよろしくお願いいたします。

発生している問題・エラーメッセージ

該当のソースコード

python

1 2import MeCab 3import csv 4import sys 5 6hcount = {} 7 8with open("tweet.csv") as f: 9 for row in csv.reader(f): 10 row = str(row).lower()#str型に型変換 11 12 dicdir = '-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-unidic-neologd' 13 mecabTagger = MeCab.Tagger(""+ dicdir) #("-Ochasen" + mecab-unidic-neologd) 14 node = mecabTagger.parseToNode(row) 15 16while node: 17 hinshi = node.feature.split(",")[0] 18 if hinshi in hcount.keys(): 19 freq = hcount[hinshi] 20 if hinshi in hcount.keys(): 21 hcount[hinshi] = freq + 1 22 else: 23 hcount[hinshi] = 1 24 node = node.next 25for key,value in hcount.items(): 26 #print(key+":"+str(value)) 27 print(hcount)

出力

{'BOS/EOS': 2, '補助記号': 6, '名詞': 8, '記号': 5}
{'BOS/EOS': 2, '補助記号': 6, '名詞': 8, '記号': 5}
{'BOS/EOS': 2, '補助記号': 6, '名詞': 8, '記号': 5}
{'BOS/EOS': 2, '補助記号': 6, '名詞': 8, '記号': 5}

補足情報(FW/ツールのバージョンなど)

google colaboratoryを使用しています。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

quickquip

2021/07/26 03:10

エラーが出たコードを貼りましょう(row = str(row).lower() が無かったんじゃないの? という疑念を捨てきれません)
saiy

2021/07/26 03:16

ご指摘の通り row = str(row).lower()の追加前のエラー文を載せていました。 ありがとうございます
quickquip

2021/07/26 03:30

ということは「エラーはないが希望通りに動いてない」という状況でしょうか。現在のコードと、その結果があるとよいと思います。
guest

回答1

0

ベストアンサー

while以下のインデントがずれています。
意図したコードは

python

1 2with open("tweet.csv") as f: 3 for row in csv.reader(f): 4 row = str(row).lower()#str型に型変換 5 6 dicdir = '-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-unidic-neologd' 7 mecabTagger = MeCab.Tagger(""+ dicdir) #("-Ochasen" + mecab-unidic-neologd) 8 node = mecabTagger.parseToNode(row) 9 10 hcount = {} 11 12 while node: 13 hinshi = node.feature.split(",")[0] 14 if hinshi in hcount.keys(): 15 freq = hcount[hinshi] 16 if hinshi in hcount.keys(): 17 hcount[hinshi] = freq + 1 18 else: 19 hcount[hinshi] = 1 20 node = node.next 21 22 for key,value in hcount.items(): 23 print(key, value)

かと。


whileの中に無駄があるので直すと

python

1 while node: 2 hinshi = node.feature.split(",")[0] 3 if hinshi in hcount: 4 freq = hcount[hinshi] 5 hcount[hinshi] = freq + 1 6 else: 7 hcount[hinshi] = 1 8 node = node.next

という感じでしょうか。(if hinshi in hcount.keys()は辞書が大きさに比例して時間がかかります)

もうちょっとPythonらしくすると

python

1from collections import defaultdict 2() 3 hcount = defaultdict(int) 4 5 while node: 6 hinshi = node.feature.split(",")[0] 7 hcount[hinshi] += 1 8 node = node.next

でしょう。
defaultdict の使用例 の3つめを参考


出力部分は

python

1 for values in zip(*hcount.items()): 2 print(values)

の方がそれらしいでしょうか。

投稿2021/07/26 04:16

編集2021/07/26 04:36
quickquip

総合スコア11299

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

saiy

2021/08/03 05:11

非常に参考になりました。遅れましたがベストアンサーにさせていただきます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問