Q&A
前提・実現したいこと
分かち書きを行い、ストップワードを除去する方法を教えていただきたいです。
現在、csvファイル(1列目に文字列)を分かち書きをして出力するところまではできているのですが、ここからストップワード(url = 'https://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
)を除去する方法を模索しております。
ここに質問の内容を詳しく書いてください。
(例)PHP(CakePHP)で●●なシステムを作っています。
■■な機能を実装中に以下のエラーメッセージが発生しました。
発生している問題・エラーメッセージ
エラーメッセージ
該当のソースコード
import csv import os import glob import re from janome.tokenizer import Tokenizer t = Tokenizer() #データの処理(不要な記号、文字の削除) def parser(text): ---省略--- #分かち書き t = Tokenizer(wakati=True) #ファイルの指定 path = "./input" file_list = glob.glob(path + '/' + '*.csv') #1行目に元データ、2行目に分かち書き結果の出力 for filename in file_list: with open(filename, "r+", encoding="cp932", errors="ignore",newline="") as f: reader = csv.DictReader(f, delimiter=',') texts = [dict(text=c["text"], result=parser(c["text"]) ) for c in reader] f.seek(0) fieldnames = ['text', 'result'] writer = csv.DictWriter(f, fieldnames=fieldnames) for row in texts: writer.writerow(row) for row in texts: writer.writerow(row)
回答1件
下記のような回答は推奨されていません。
このような回答には修正を依頼しましょう。
退会済みユーザー
2019/06/07 07:42
2019/06/07 20:43 編集