質問編集履歴

2

目的の修正

2019/04/02 12:37

投稿

1mzmk
1mzmk

スコア42

test CHANGED
File without changes
test CHANGED
@@ -22,11 +22,9 @@
22
22
 
23
23
  "description"の列で5000件以上のレビューに現れるユニグラムを求める際に
24
24
 
25
- それに記載されている単語をjsonファイルの”discription”から省いた状態にすることができるのでしょうか。
25
+ それに記載されている単語をjsonファイルの”discription”から省いた状態にすることができるのでしょうか。(私のjsonファイルの”discription”の列のストップワードを取り除いた状態の新たなjsonファイルをまず作成したい)
26
26
 
27
-
28
-
29
- 下のコードは、わたしが途中まで書いたコードです。その先の'stopwords.txt'を適応する方法をおしえてください。
27
+ 下のコードは、わたしが途中まで書いたコードです。その先の'stopwords.txt'を適応してjsonファイルの”discription”の列のストップワードを取り除いた状態の新たなjsonファイルをまず作成する方法をおしえてください。
30
28
 
31
29
 
32
30
 

1

説明の追記

2019/04/02 12:37

投稿

1mzmk
1mzmk

スコア42

test CHANGED
File without changes
test CHANGED
@@ -119,3 +119,11 @@
119
119
  tokenizer = RegexpTokenizer(r"\w+(?:[-']\w+)?")
120
120
 
121
121
  ```
122
+
123
+
124
+
125
+ **<追記>**全ての"description"から'stopwords.txt'に記載されている単語を省いた結果を欲しいとかんがえており、
126
+
127
+ その結果でfreqDist()とsort()を使用して最終的に"description"の列で5000件以上のレビューに現れるユニグラムとそれらのユニグラムを持つ全ての行を知りたいと考えています。
128
+
129
+ なので、フォーマットとしてはその結果をトークンへの分割後、単語数、異なり語数、出現頻度が求められるような形でお願いしたいです。