質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

解決済

stopwordsを除去する方法(python,janome)

削除済ユーザー
削除済ユーザー

総合スコア0

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

1回答

0評価

0クリップ

4619閲覧

投稿2019/06/06 08:36

前提・実現したいこと

分かち書きを行い、ストップワードを除去する方法を教えていただきたいです。

現在、csvファイル(1列目に文字列)を分かち書きをして出力するところまではできているのですが、ここからストップワード(url = 'https://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
)を除去する方法を模索しております。

ここに質問の内容を詳しく書いてください。
(例)PHP(CakePHP)で●●なシステムを作っています。
■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

import csv import os import glob import re from janome.tokenizer import Tokenizer t = Tokenizer() #データの処理(不要な記号、文字の削除) def parser(text):  ---省略--- #分かち書き t = Tokenizer(wakati=True) #ファイルの指定 path = "./input" file_list = glob.glob(path + '/' + '*.csv') #1行目に元データ、2行目に分かち書き結果の出力 for filename in file_list: with open(filename, "r+", encoding="cp932", errors="ignore",newline="") as f: reader = csv.DictReader(f, delimiter=',') texts = [dict(text=c["text"], result=parser(c["text"]) ) for c in reader] f.seek(0) fieldnames = ['text', 'result'] writer = csv.DictWriter(f, fieldnames=fieldnames) for row in texts: writer.writerow(row) for row in texts:        writer.writerow(row)

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。