##初めに
現在、形態素解析を行おうと、対象のデータを持ってきて、jupyternotebookで試しにやってみようと実行しました。
##環境
windows10
jupyter notebook python3
##現状
csvファイルに格納してある、1000件以上の文章を、形態素解析しようとしています。
最後のprintで結果を見ようと思ったら、エラーがでました。
##コード
python
1import sys 2import MeCab 3csv_file = open("combination.csv", "r", encoding="ms932", errors="", newline="" ) 4f = csv.reader(csv_file, delimiter=",", doublequote=True, lineterminator="\r\n", quotechar='"', skipinitialspace=True) 5list=[] 6header = next(f) 7list.append(header) 8for row in f: 9 list.append(row) 10text = ' '.join(map(str,list)) 11m = MeCab.Tagger("-Ochasen") 12print(m.parse(text))
##コードの解説
csvファイルを読み込み、リスト型で返却される文字列を、全て1つの文字列に変換しています。
そして、printしようとしたところ、エラーがでました。
##エラー内容
IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
--NotebookApp.iopub_data_rate_limit
.
Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)
##エラー内容について
調べてみたところ、出力の量が多すぎて、出力できないという内容でした。
configをいじると治るという、teratailの質問を見たのですが、解決できません。
NotebookApp.iopub_data_rate_limit=1000000.0の部分を、プロンプトで100000000に変更して、またnotebookを開いても、このエラーがでてしまいます。
##検討している内容
①理想は、結果を全て見たいので、どうしたら全て出力することができるか。
②妥協として、出力できる範囲で、全体の一部分(例えば、上位10件)を出力したい。
##最後に
どうすればできるでしょうか。
今後は、形態素解析から、tfidf値を求めようとしているため、この段階をできるようになっておきたいです。
よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー