質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

9435閲覧

stopwordsを除去する方法(python,janome)

退会済みユーザー

退会済みユーザー

総合スコア0

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/06/06 08:36

前提・実現したいこと

分かち書きを行い、ストップワードを除去する方法を教えていただきたいです。

現在、csvファイル(1列目に文字列)を分かち書きをして出力するところまではできているのですが、ここからストップワード(url = 'https://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
)を除去する方法を模索しております。

ここに質問の内容を詳しく書いてください。
(例)PHP(CakePHP)で●●なシステムを作っています。
■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

import csv import os import glob import re from janome.tokenizer import Tokenizer t = Tokenizer() #データの処理(不要な記号、文字の削除) def parser(text):  ---省略--- #分かち書き t = Tokenizer(wakati=True) #ファイルの指定 path = "./input" file_list = glob.glob(path + '/' + '*.csv') #1行目に元データ、2行目に分かち書き結果の出力 for filename in file_list: with open(filename, "r+", encoding="cp932", errors="ignore",newline="") as f: reader = csv.DictReader(f, delimiter=',') texts = [dict(text=c["text"], result=parser(c["text"]) ) for c in reader] f.seek(0) fieldnames = ['text', 'result'] writer = csv.DictWriter(f, fieldnames=fieldnames) for row in texts: writer.writerow(row) for row in texts:        writer.writerow(row)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

stopwordsを格納したsetを作っておき、処理の過程で単語を要素としているlistができるでしょうから(できない書き方をしているのであれば、できるように見直してください)、ループか内包表記を使ってsetに含まれないものだけ残します。

単純な例を以下に示します。

python

1>>> lst = ['吾輩', 'は', '猫', 'で', 'ある', '。'] 2>>> stop_words = {"は", "で", "ある", "。"} 3>>> lst = [x for x in lst if x not in stop_words] 4>>> lst 5['吾輩', '猫']

投稿2019/06/06 18:14

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2019/06/07 07:42

ありがとうございます。 修正して質問しなおしましたので、見ていただけると嬉しいです。
hayataka2049

2019/06/07 20:43 編集

見てみましたが、手に負えないというのが正直な感想でした。書いた本人ですら動作を理解していないものを他人が理解するのは酷というか無理です。ごめんなさい。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問