MeCabを用いてJsonファイルの中身の形態素解析

Question

### 前提 json形式のファイルからtextを取り出して，その内容をMeCabを用いて品詞分解を目指しています．しかし，エラーが出てしまい，その原因がわからないので教えていただけますと幸いです． ### 実現したいこと - [ ] json形式の中身を形態素解析 ### 発生している問題・エラーメッセージ ``` Traceback (most recent call last): File "C:\Users\subaru narahashi\graduation_research\mecab_2.py", line 59, in main() File "C:\Users\subaru narahashi\graduation_research\mecab_2.py", line 31, in main m = mecab.parse(data) TypeError: in method 'Tagger_parse', argument 2 of type 'char const *' Additional information: Wrong number or type of arguments for overloaded function 'Tagger_parse'. Possible C/C++ prototypes are: MeCab::Tagger::parse(MeCab::Lattice *) const MeCab::Tagger::parse(char const *) ``` ### 該当のソースコード ```python import sys import MeCab import requests import urllib import re import json import pandas as pd from collections import Counter def main(): # ファイル読み込み new_data = [] m = [] with open('pre_replace_kurashiki.json', "r", encoding = 'utf-8') as f: j = json.load(f) """ for key in j: i = print(neologdn.normalize(key["text"])) p = print(key["day"]) """ for key in j: data = {key["text"]} print(data) mecab = MeCab.Tagger() m = mecab.parse(data) node = m.parseToNode(data) new_data.append(node) print(new_data) #print(new_data) """ mecab = MeCab.Tagger() mecab.parse(new_data) node = mecab.parseToNode(new_data) m.append(mecab) print(m) """ #for document in documents: if __name__ == "__main__": main() ``` ### 追加情報1：jsonファイルの中身 ``` [ { "text": "全ての季節で情緒を感じることができる。古きを訪ね新しくを知る旅にもってこい。一人旅にも、家族、カップル、全てのシチュエーションにも満足がいく旅になると思います。", "day": "2021年9月" }, { "text": "何度か行ったことがあるのですが、いつ行っても綺麗な景観です。やっぱり日本の景色は良いですね。落ち着きます。", "day": "2022年10月1日" }, { "text": "建物の雰囲気がとても良かった。食べ歩きができ恋みくじ団子は美味しかった。スヌーピー倉敷限定商品がありました。", "day": "2022年9月" } ] ``` ### 追加情報2:実施したこと以下のようにコードを変更しました ``` import sys import MeCab import requests import urllib import re import json import pandas as pd from collections import Counter def main(): # ファイル読み込み new_data = [] data_1 = [] with open('pre_replace_kurashiki.json', "r", encoding = 'utf-8') as f: j = json.load(f) """ for key in j: i = print(neologdn.normalize(key["text"])) p = print(key["day"]) """ for key in j: data = key["text"] print(data) mecab = MeCab.Tagger() m = mecab.parse(str(data)) node = m.parseToNode(str(data)) new_data.append(node) print(new_data) #print(new_data) """ mecab = MeCab.Tagger() mecab.parse(new_data) node = mecab.parseToNode(new_data) m.append(mecab) print(m) """ #for document in documents: if __name__ == "__main__": main() ``` ### 追加情報3:変更後のコードに対するエラーメッセージ ``` Traceback (most recent call last): File "C:\Users\subaru narahashi\graduation_research\mecab_2.py", line 61, in main() File "C:\Users\subaru narahashi\graduation_research\mecab_2.py", line 34, in main node = m.parseToNode(str(data)) AttributeError: 'str' object has no attribute 'parseToNode' ```

Accepted Answer

Pythonは誰にでも使えると謳われるとはいえ，何を書いても動くというわけではありません．
おそらく，質問のコードは何かのWebサイトや教科書を参考にして書かれていると思いますが，参考元のコードは概ね[ドキュメント](https://taku910.github.io/mecab/)を読んだ上で書かれたもので，適当に書いて動いた，というものではありません．これから「理屈で解決する．」ということを念頭に話を進めていきます．

さて，このドキュメントが示す[コードリファレンス](https://taku910.github.io/mecab/doxygen/annotated.html)では，[Tagger Class](https://taku910.github.io/mecab/doxygen/classMeCab_1_1Tagger.html)についての記述があります．今回はコード中で`MeCab.Tagger()`としてこのクラスを使用していることから，これに関するものが使われるということになりますね．

中でも

の記述が今回使いたそうにしているものと一致するように見えます．MeCabはC++で書かれているのでPythonの書式とは異なるものの，`parse()`も`parseToNode()`もどちらも文字列を意味する`char *str`を引数に要求していますね．`parse()`の戻り値は文字`char`のポインタ`char *`，`parseToNode()`の戻り値はノードのポインタ`Node *`であることがわかりました．

返り値は違うものの，いずれも集合型を受け付けておらず，文字列を引数に取らなければならない．というのはここで確認ができました．

### 追加情報2に対するfix
現状のコードは
```Python
data = key["text"]              # JSONデータから文字列を取り出し
mecab = MeCab.Tagger()          # Tagger Classであるmecabを作成
m = mecab.parse(str(data))      # 文字列str(data)をtagger.parse()して文字列mを作成(先述の通りparseの返り値は文字列である)
node = m.parseToNode(str(data)) # 文字列mに対してstr.parseToNode()を実行 <- ここでエラー
```
でしたね．提示いただいたJSONファイルの例で`key["text"]`は既に文字列型であることがわかったので，`mecab.parse(str(data))`の際に`str()`は不要であることがわかります．

現状出ているエラー`AttributeError: 'str' object has no attribute 'parseToNode'`に関して
> 私としては，これでstr型の引数を与えられているとは思うのですが、、、
と考えられているものの，引数に文字列を与えていることは正しいですが，解決にあたって着眼点が本質的ではありません．

内容は`str`オブジェクトには属性`parseToNode`は存在しない．というものです(翻訳してそのまんまの意味です)．[strオブジェクトの属性](https://docs.python.org/ja/3/library/string.html)を確認すると，確かに`parseToNode`は存在しないことがわかります．

`parseToNode`は，先ほど`Tagger Class`について述べた通り「`Tagger Class`の」Member Function(Pythonで言う属性)であったはずです．なのにも関わらず，`m = mecab.parse(str(data))`で得られた文字列型オブジェクト`m`に対して，`m.parseToNode(str(data))`と書かれていますね．これでは動くはずがありません．

ちゃんと`Tagger Class`である`mecab`に対して`parseToNode()`を行いましょう．

具体的には，次のようにコードを書く必要があります．
```Python
for key in j:
  data = key["text"]
  mecab = MeCab.Tagger()             # Tagger Classであるオブジェクトmecabを作成
  m = mecab.parse(data)              # Tagger Classには文字列を受け付けて文字列を返すtagger.parse()があるので使ってみる(文字列mは今後使われない)
  node = mecab.parseToNode(data)     # Tagger Classには文字列を受け付けてノードを返すtagger.parseToNode()があるので使ってみる
  while node:                        # nodeがNoneになるまで
    word = node.surface              # nodeの文字を取り出し
    pos = node.feature.split(',')[0] # 品詞(part of speech)を取り出し
    print(f"{word}: {pos}")          # 両方とも表示
    node = node.next                 # nodeを次のnodeに置き換える
```
突然出てきた`node`の扱いですが，もちろんこれも[mecab_node_t Struct Reference](https://taku910.github.io/mecab/doxygen/structmecab__node__t.html)に記述があり，これに基づいて書かれるコードです．`node.wcost`とかで単語コストを見れることがわかりますね．

普通はエラーを見て，Pythonが示す意図を察し，実装したいことと比較して，対処を考える必要があります．なので，こういったリファレンスを参照する力も要求されると思います．そうでなくても最低限「[mecab parse to node](https://www.google.com/search?q=mecab+parse+to+node)」などと検索して[使いたい機能を使ってみている人](https://qiita.com/yonedaco/items/27e1ad19132c9f1c9180)を探され，真似るべきです．ただ，Webサイトや本で書かれているコードが正しいとも限りません．さらには自分がやりたいことに合致しないコードなんてざらにあります．他人のコードを丸々コピペして動くと思わない方が良いでしょうけれど，少なくともあなたの力になるはずです．

エラーの読解力と，情報収集力に繋がればと思い，長々と書かせていただきました．疑問の解消と今後の成長になれば幸いです．自然言語処理に取り組まれるよりも先にプログラミングの勉強から始められることをお勧めしておきます．[1つ前の質問](https://teratail.com/questions/3pzc0953vno96n)も[配列操作](https://www.google.com/search?q=python+%E9%85%8D%E5%88%97+%E8%BF%BD%E5%8A%A0)に関する知識があれば実装可能かと思います．

Answer

parseメソッドには集合型ではなくてstr型を引数に与えてください。

----
(追記)

そもそも、まず初手として、Pythonの対話環境か何かを使って
```python
import MeCab

mecab = MeCab.Tagger()
s = 'あのイーハトーヴォのすきとおった風、夏でも底に冷たさをもつ青いそら、うつくしい森で飾られたモリーオ市、郊外のぎらぎらひかる草の波。'
m = mecab.parse(s)
print(m)
print('----')
print(repr(m))
```
などとしてみて、自分が今使おうと思っているものを**実際に使ってみて**観察したらよいと思います。

結果例（辞書が違えば結果は変わります。念のため）
```plain
あの	連体詞,*,*,*,*,*,あの,アノ,アノ
イーハトーヴォ	名詞,一般,*,*,*,*,*
の	助詞,格助詞,一般,*,*,*,の,ノ,ノ
すきとおっ	動詞,自立,*,*,五段・ラ行,連用タ接続,すきとおる,スキトオッ,スキトーッ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
風	名詞,一般,*,*,*,*,風,カゼ,カゼ
、	記号,読点,*,*,*,*,、,、,、
夏	名詞,一般,*,*,*,*,夏,ナツ,ナツ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
も	助詞,係助詞,*,*,*,*,も,モ,モ
底	名詞,一般,*,*,*,*,底,ソコ,ソコ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
冷た	形容詞,自立,*,*,形容詞・アウオ段,ガル接続,冷たい,ツメタ,ツメタ
さ	名詞,接尾,特殊,*,*,*,さ,サ,サ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
もつ	動詞,自立,*,*,五段・タ行,基本形,もつ,モツ,モツ
青い	形容詞,自立,*,*,形容詞・アウオ段,基本形,青い,アオイ,アオイ
そら	感動詞,*,*,*,*,*,そら,ソラ,ソラ
、	記号,読点,*,*,*,*,、,、,、
うつくしい	形容詞,自立,*,*,形容詞・イ段,基本形,うつくしい,ウツクシイ,ウツクシイ
森	名詞,一般,*,*,*,*,森,モリ,モリ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
飾ら	動詞,自立,*,*,五段・ラ行,未然形,飾る,カザラ,カザラ
れ	動詞,接尾,*,*,一段,連用形,れる,レ,レ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
モリーオ	名詞,固有名詞,地域,一般,*,*,*
市	名詞,接尾,地域,*,*,*,市,シ,シ
、	記号,読点,*,*,*,*,、,、,、
郊外	名詞,一般,*,*,*,*,郊外,コウガイ,コーガイ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
ぎらぎら	副詞,一般,*,*,*,*,ぎらぎら,ギラギラ,ギラギラ
ひかる	動詞,自立,*,*,五段・ラ行,基本形,ひかる,ヒカル,ヒカル
草	名詞,一般,*,*,*,*,草,クサ,クサ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
波	名詞,一般,*,*,*,*,波,ナミ,ナミ
。	記号,句点,*,*,*,*,。,。,。
EOS

----
'あの	連体詞,*,*,*,*,*,あの,アノ,アノ
イーハトーヴォ	名詞,一般,*,*,*,*,*
の	助詞,格助詞,一般,*,*,*,の,ノ,ノ
すきとおっ	動詞,自立,*,*,五段・ラ行,連用タ接続,すきとおる,スキトオッ,スキトーッ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
風	名詞,一般,*,*,*,*,風,カゼ,カゼ
、	記号,読点,*,*,*,*,、,、,、
夏	名詞,一般,*,*,*,*,夏,ナツ,ナツ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
も	助詞,係助詞,*,*,*,*,も,モ,モ
底	名詞,一般,*,*,*,*,底,ソコ,ソコ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
冷た	形容詞,自立,*,*,形容詞・アウオ段,ガル接続,冷たい,ツメタ,ツメタ
さ	名詞,接尾,特殊,*,*,*,さ,サ,サ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
もつ	動詞,自立,*,*,五段・タ行,基本形,もつ,モツ,モツ
青い	形容詞,自立,*,*,形容詞・アウオ段,基本形,青い,アオイ,アオイ
そら	感動詞,*,*,*,*,*,そら,ソラ,ソラ
、	記号,読点,*,*,*,*,、,、,、
うつくしい	形容詞,自立,*,*,形容詞・イ段,基本形,うつくしい,ウツクシイ,ウツクシイ
森	名詞,一般,*,*,*,*,森,モリ,モリ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
飾ら	動詞,自立,*,*,五段・ラ行,未然形,飾る,カザラ,カザラ
れ	動詞,接尾,*,*,一段,連用形,れる,レ,レ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
モリーオ	名詞,固有名詞,地域,一般,*,*,*
市	名詞,接尾,地域,*,*,*,市,シ,シ
、	記号,読点,*,*,*,*,、,、,、
郊外	名詞,一般,*,*,*,*,郊外,コウガイ,コーガイ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
ぎらぎら	副詞,一般,*,*,*,*,ぎらぎら,ギラギラ,ギラギラ
ひかる	動詞,自立,*,*,五段・ラ行,基本形,ひかる,ヒカル,ヒカル
草	名詞,一般,*,*,*,*,草,クサ,クサ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
波	名詞,一般,*,*,*,*,波,ナミ,ナミ
。	記号,句点,*,*,*,*,。,。,。
EOS
'
```

自分が使おうとしているものがどういう振る舞いをするかを観察しないで、コードに放り込むのが無理があると思います。

----

個人的には、`parseToNode`ではなくて`parse`を使って得た文字列情報を相手にする方がよいと思っています。
末尾改行を取り除いてから改行で分割して、
```python
lines = mecab.parse(s).strip('
).split('
')
```
とすると
```plain
['あの	連体詞,*,*,*,*,*,あの,アノ,アノ',
 'イーハトーヴォ	名詞,一般,*,*,*,*,*',
 'の	助詞,格助詞,一般,*,*,*,の,ノ,ノ',
 'すきとおっ	動詞,自立,*,*,五段・ラ行,連用タ接続,すきとおる,スキトオッ,スキトーッ',
 'た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ',
 '風	名詞,一般,*,*,*,*,風,カゼ,カゼ',
 '、	記号,読点,*,*,*,*,、,、,、',
 '夏	名詞,一般,*,*,*,*,夏,ナツ,ナツ',
 'で	助詞,格助詞,一般,*,*,*,で,デ,デ',
 'も	助詞,係助詞,*,*,*,*,も,モ,モ',
 '底	名詞,一般,*,*,*,*,底,ソコ,ソコ',
 'に	助詞,格助詞,一般,*,*,*,に,ニ,ニ',
 '冷た	形容詞,自立,*,*,形容詞・アウオ段,ガル接続,冷たい,ツメタ,ツメタ',
 'さ	名詞,接尾,特殊,*,*,*,さ,サ,サ',
 'を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ',
 'もつ	動詞,自立,*,*,五段・タ行,基本形,もつ,モツ,モツ',
 '青い	形容詞,自立,*,*,形容詞・アウオ段,基本形,青い,アオイ,アオイ',
 'そら	感動詞,*,*,*,*,*,そら,ソラ,ソラ',
 '、	記号,読点,*,*,*,*,、,、,、',
 'うつくしい	形容詞,自立,*,*,形容詞・イ段,基本形,うつくしい,ウツクシイ,ウツクシイ',
 '森	名詞,一般,*,*,*,*,森,モリ,モリ',
 'で	助詞,格助詞,一般,*,*,*,で,デ,デ',
 '飾ら	動詞,自立,*,*,五段・ラ行,未然形,飾る,カザラ,カザラ',
 'れ	動詞,接尾,*,*,一段,連用形,れる,レ,レ',
 'た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ',
 'モリーオ	名詞,固有名詞,地域,一般,*,*,*',
 '市	名詞,接尾,地域,*,*,*,市,シ,シ',
 '、	記号,読点,*,*,*,*,、,、,、',
 '郊外	名詞,一般,*,*,*,*,郊外,コウガイ,コーガイ',
 'の	助詞,連体化,*,*,*,*,の,ノ,ノ',
 'ぎらぎら	副詞,一般,*,*,*,*,ぎらぎら,ギラギラ,ギラギラ',
 'ひかる	動詞,自立,*,*,五段・ラ行,基本形,ひかる,ヒカル,ヒカル',
 '草	名詞,一般,*,*,*,*,草,クサ,クサ',
 'の	助詞,連体化,*,*,*,*,の,ノ,ノ',
 '波	名詞,一般,*,*,*,*,波,ナミ,ナミ',
 '。	記号,句点,*,*,*,*,。,。,。',
 'EOS']
```
というような「文字列のリスト」が手に入ります。
これを相手にした方がよいかと思います。

Return Type	Member Functions
`virtual const char *`	`parse(const char *str)`
`virtual const Node *`	`parseToNode(const char *str)`

前提

実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

追加情報1：jsonファイルの中身

追加情報2:実施したこと

追加情報3:変更後のコードに対するエラーメッセージ

追加情報2に対するfix

関連した質問