前提・実現したい
機械学習のデータ加工について質問です。
初歩的な質問ですいません!
大学の課題で何か1つ論文を実装することになりました。そこで↓の論文を実装しようと思っています。
ネットワークトラフィック変動のRNNによる予測
http://ogl.is.ocha.ac.jp/Publications/paper2017/deim2018_haruka.pdf
この論文では特徴量を18種使っているのですが、ipアドレスなどを特徴量とする場合、文字列なのでデータ加工の段階で数値に変えてあげる必要があると考えています。
この場合、ダミー変数を使い登場する文字列1つ1つを適当な数値に変えれば良いのですか?
また、一括してダミー変数に変更できるコードがあれば教えていただきたいです。
例えば下のデータだとしたら、列名指定でstateを指定して、NY=1,Nan=2,CA=3...順番に適当なダミー変数に変換できるような方法はないですか
python
1print(df) 2# name age state point 3# 0 Alice 24.0 NY 64.0 4# 1 NaN NaN NaN NaN 5# 2 Charlie 18.0 CA 70.0 6# 3 Dave 68.0 TX 70.0 7# 4 Ellen 24.0 CA 88.0 8# 5 Frank 30.0 NY 57.0
試したこと
python
1u = df['A'].unique()
ユニークな要素を抽出後一つ一つ数値に変えている
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。