python3.6環境下におけるmecabによる大容量データの実行について

Question

### 前提・実現したいこと
python環境下におけるmecabで取得したツイートを形態素解析し、出力したい


### 発生している問題・エラーメッセージ
分かち書きをしたいデータが2MB程度のファイルであれば実行できるのですが、
それ以上のファイルを解析しようとすると
```
None
```
となってしまいます。
### 該当のソースコード

```ここに言語名を入力
import MeCab

import unicodedata
wakatilist = []

mecab = MeCab.Tagger ('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
 ')

f = open('10a_month_analysis_001.txt')

line = f.read()
line = unicodedata.normalize("NFKC", line)#正規化

line = re.sub(r'[#|＃]', " ", line)
#line = re.sub(r'[((.*?))]', "", line)
line.lower()
mecab.parse('')
#line = re.sub(r'
', "", line)
sentence = mecab.parse(line)
       
f.close()
print(sentence)

```



### 補足情報（FW/ツールのバージョンなど）

python 3.6.3
mecab-python3 0.7
を使用しています。

Accepted Answer

対象がツイートということは個々の文字列は140文字しかなく、ファイルに含まれている件数が膨大なのだと思います。お示しのスクリプトでは最初にこれをline=f.read()で丸呑みしているようですが、
```python
with open("10a_month_analysis_001.txt") as f:
  for line in f:
    ...
```
のように一行づつ読んで処理していくようにすればいいのではないでしょうか。

Answer

mecabかmecab-pythonの実装の問題ですねぇ・・・。

文字列がでかすぎて、mecab自体かmecab-pythonのどっちかが拒否しています（どっちかまではわかりませんが、経験的にはmecab-pythonの方な気がします。バインディングの出来がそこまでよくない）。

mecab-pythonにこだわらず、コマンドライン上で

```
$ meacb -Owakati < 10a_month_analysis_001.txt > 10a_month_analysis_001_wakati.txt
```

とすると、mecab自体が拒否しなければ`input_wakati.txt`が無事にできそうな気がします（保証はしません）。差し支えなければそれをpythonから読み込んで処理するというのが一つの選択肢。

mecab-pythonでやりたいのなら、文字列を適当な単位で分割して投げてみてください。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

補足情報（FW/ツールのバージョンなど）

関連した質問