NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。
Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。
Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。
Q&A
解決済
1回答
947閲覧
総合スコア354
0グッド
0クリップ
投稿2019/11/08 10:37
0
機械学習をする上で文字列のデータ前処理は、ダミー変数化するやり方がありますが、 47都道府県の文字列など、文字列の種類が大量に存在する場合も、同様の手法を取るのが良いのでしょうか?
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
質問へのコメント
回答1件
ベストアンサー
どういうデータをどういう目的で分析するかがわからないと何とも言えないですが、文字列の種類が多くてもそれが有効であればダミー変数化するのは間違っていないと思います。
投稿2019/11/08 11:11
総合スコア438
回答へのコメント
2019/11/08 12:47
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
15分調べてもわからないことはteratailで質問しよう!
ただいまの回答率85.36%
質問をまとめることで思考を整理して素早く解決
テンプレート機能で簡単に質問をまとめる
機械学習 大量に存在する文字列のデータ前処理について
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/11/08 12:47