回答編集履歴

3

ミスを修正しました。

2021/04/11 12:57

投稿

BoKuToTuZenU
BoKuToTuZenU

スコア51

test CHANGED
@@ -20,11 +20,49 @@
20
20
 
21
21
  のような感じです。
22
22
 
23
- この、データは`csv`ファイルであると思いますので、`pandas`を用いれば簡単に変換することができます。
23
+ この、データは`csv`ファイルであると思いますので、`pandas`を用いれば変換することができます。
24
24
 
25
25
  `pd.get_dummies(df)`
26
26
 
27
27
  を用いれば変換できます([ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html))。
28
+
29
+
30
+
31
+ # 追記
32
+
33
+ `pd.get_dummies`はラベルエンコーディングの後にone-hotに変更します。
34
+
35
+ そのため、
36
+
37
+ `a`,`b`,`c`,`d`などのカテゴリがある場合、
38
+
39
+ `a->0`,`b->1`,`c->2`,`d->3`
40
+
41
+ などと番号付を行います。
42
+
43
+ その後に
44
+
45
+ ```
46
+
47
+ a-> [1,0,0,0]
48
+
49
+ b-> [0,1,0,0]
50
+
51
+ c-> [0,0,1,0]
52
+
53
+ d-> [0,0,0,1]
54
+
55
+ ```
56
+
57
+
58
+
59
+ などのようにone-hotのベクトルに変更する処理を行います。
60
+
61
+ -> 追記終わり
62
+
63
+
64
+
65
+
28
66
 
29
67
  これは、データ型dtypeがobject(おもに文字列)またはcategoryである列がすべてダミー変数化されます。
30
68
 

2

詳しく書いた

2021/04/11 12:56

投稿

BoKuToTuZenU
BoKuToTuZenU

スコア51

test CHANGED
@@ -33,3 +33,5 @@
33
33
 
34
34
 
35
35
  また、質問する際にコードやエラーの部分は、バッククオート(```)を3つつけたもので囲むと良いかと思います。
36
+
37
+ [詳しい書き方](https://teratail.com/help/question-tips)を参照していただけたらと思います。

1

ミスを修正しました。

2021/04/11 12:39

投稿

BoKuToTuZenU
BoKuToTuZenU

スコア51

test CHANGED
@@ -29,3 +29,7 @@
29
29
  これは、データ型dtypeがobject(おもに文字列)またはcategoryである列がすべてダミー変数化されます。
30
30
 
31
31
  これを用いることで機械学習のモデル(sklearnの決定木でしょうか?)に入力することができるかと思います。
32
+
33
+
34
+
35
+ また、質問する際にコードやエラーの部分は、バッククオート(```)を3つつけたもので囲むと良いかと思います。