回答率: 85.47%

質問するログイン新規登録

トップに関する質問 stop wordの適応について

編集履歴

質問編集履歴

2

目的の修正

2019/04/02 12:37

投稿

スコア42

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -22,11 +22,9 @@
 "description"の列で5000件以上のレビューに現れるユニグラムを求める際に
-それに記載されている単語をjsonファイルの”discription”から省いた状態にすることができるのでしょうか。
+それに記載されている単語をjsonファイルの”discription”から省いた状態にすることができるのでしょうか。(私のjsonファイルの”discription”の列のストップワードを取り除いた状態の新たなjsonファイルをまず作成したい)
-下のコードは、わたしが途中まで書いたコードです。その先の'stopwords.txt'を適応する方法をおしえてください。
+下のコードは、わたしが途中まで書いたコードです。その先の'stopwords.txt'を適応してjsonファイルの”discription”の列のストップワードを取り除いた状態の新たなjsonファイルをまず作成する方法をおしえてください。

1

説明の追記

2019/04/02 12:37

投稿

スコア42

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -119,3 +119,11 @@
 tokenizer = RegexpTokenizer(r"\w+(?:[-']\w+)?")
 ```
+**＜追記＞**全ての"description"から'stopwords.txt'に記載されている単語を省いた結果を欲しいとかんがえており、
+その結果でfreqDist()とsort()を使用して最終的に"description"の列で5000件以上のレビューに現れるユニグラムとそれらのユニグラムを持つ全ての行を知りたいと考えています。
+なので、フォーマットとしてはその結果をトークンへの分割後、単語数、異なり語数、出現頻度が求められるような形でお願いしたいです。