質問編集履歴
1
jsonファイルの説明
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,3 +1,29 @@
|
|
1
|
+
私は、あるjsonファイルを使用しています。
|
2
|
+
|
3
|
+
私のjsonファイルは、下のURLのjsonファイルでワインについてのレビューについてのデータで、多くの種類のワインのレビューについてリストとして記載されています。
|
4
|
+
|
5
|
+
'[https://github.com/tulip-lab/sit742/raw/master/Assessment/2019/data/wine.json']
|
6
|
+
|
7
|
+
行には”country”,"variety", "price", "point", "description"などの項目があります。
|
8
|
+
|
9
|
+
私のjsonファイルは下のような表になります。(1行が1レビューになってます。)
|
10
|
+
|
11
|
+
|
12
|
+
|
13
|
+
|
14
|
+
|
15
|
+
![イメージ説明](ad3cec1a84a3971f7f6bdd49c4e4d04a.png)
|
16
|
+
|
17
|
+
まず、私のjsonファイルをストップワードとして'stopwords.txt'に記載された単語を”description”から省いた状態にしました。
|
18
|
+
|
19
|
+
下のURLが'stopwords.txt'となっています。
|
20
|
+
|
21
|
+
'https://github.com/tulip-lab/sit742/raw/master/Assessment/2019/data/stopwords.txt'
|
22
|
+
|
23
|
+
そして、この、ストップワードを取り除いた”description”だけのものを”df9”と定義しました。
|
24
|
+
|
25
|
+
|
26
|
+
|
1
27
|
以下のコードで定義した”df9”のTF-IDF >0.4 となる単語とそのTF-IDFの値を出力したいと思ってます。
|
2
28
|
|
3
29
|
```python
|