質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

6085閲覧

pythonでストップワードの除去をしたい

himazin392

総合スコア7

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2020/09/25 02:06

編集2020/09/25 02:07

pythonで辞書による方法でストップワードを除去したいのですが、エラーらしきものが出てきました
pythonインタプリタで実行しましたが、文字も表示されません。
この下記のサイトによりjapan.txtで任意の名前を付けて、open関数でファイルを開き
改行記号を残さないためにstripメソッドを用いています。
japan.txtは,Slothlibのテキストページをクリックしてtxtファイルに保存しました。
https://testpy.hatenablog.com/entry/2016/10/05/004949

#実行環境
Python 3.7.3 (default, Apr 24 2019, 15:29:51) [MSC v.1915 64 bit (AMD64)] :: Anaconda, Inc. on win32
#プログラムコード

python

1with open('japan.txt','r',encoding='utf-8')as f: 2 stopwords =[w.strip() for w in f] 3 stopwords =set(stopwords) 4

そこでjapan.txtに含まれる日本語を除去する関数remove_stopwordsを定義します。

python

1def remove_stopwords(words,stopwords): 2 words =[w for w in words if w not in stopwords] 3 return words

japan.txtには 「いくつ」という単語がありますので除去することができるはずなのですが、エラーらしきものが出てしまいます。

python

1from janome .tokenizer import Tokenizer 2t =Tokenizer(wakati =True) 3text='リンゴをいくつか買う' 4words =t.tokenize(text) 5words 6

#エラーらしきもの

イメージ説明

このgeneraterのエラーの意味を調べてみましたが、有効的なな手段がなく、困っています。どうかご協力をお願いします

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

エラーではありません。
ジェネレータオブジェクトが返ってきていて、wordsを評価した内容はそのこと、つまり「Tokenizer.__tokenize_streamというジェネレータオブジェクトが返ってきている」ことを教えてくれています。

https://docs.python.org/ja/3/tutorial/classes.html#iterators (と次の節)

https://docs.python.org/ja/3/reference/expressions.html#examples
を参考にしてください。

質問のソースだと、

python

1from janome .tokenizer import Tokenizer 2t =Tokenizer(wakati =True) 3text='リンゴをいくつか買う' 4 5words =t.tokenize(text) 6print(next(words)) # => リンゴ 7print(list(words)) # => ['を', 'いくつ', 'か', '買う'] 8 9words =t.tokenize(text) 10for word in words: 11 print(word)

などとすると挙動を実感できると思います。

投稿2020/09/25 03:13

quickquip

総合スコア11235

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

himazin392

2020/09/27 09:03

ありがとうございます。print(list(words))を実行したところできるようになりました
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問