質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1931閲覧

列内に複数要素あるデータのダミー変数化

tm1242

総合スコア1

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2022/01/02 03:29

前提・実現したいこと

機械学習の特徴量加工において、
学習データの列内に複数の要素が含まれているケースがありますが、
こちらをダミー変数化する方法を教えていただけないでしょうか。

・変換したいデータの例(Series型)
s_temp = pd.Series(data["japan,china","china","america","america,canada,korea"])

1行目 japan,china
2行目 china
3行目 america,canada
4行目 america,canada,korea

・実現したいアウトプット(dataframe型、列順にこだわりなし)
japan china america canada korea
1 1  0 0 0
0 1  0 0 0
0 0  1 1 0
0 0 1 1 1

試したこと

split関数で実現しようとしましたが、
ここから先の方法が分かりませんでした…

s_temp.str.split(',',expand=True)

0 1 2
0 japan china None
1 china None None
2 america None None
3 america canada korea

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tm1242

2022/01/02 06:20

get_dummiesだと変換が上手なかったのですが、ppulさんに投稿していただいた方法で実現できそうです!
meg_

2022/01/02 09:18

> get_dummiesだと変換が上手なかったのですが そのことをその時のコード含めて質問に記入いただけるとより良い回答が付くかと思われます。今後のご参考までに。
tm1242

2022/01/02 09:50

meg_さん、失礼いたしました… 次質問するときはトライした内容を全て記載するようにします。 アドバイスいただきありがとうございます。
guest

回答1

0

ベストアンサー

こういう感じです。

python

1>>> pd.get_dummies(s_temp.str.split(',',expand=True).stack()).groupby(level=0).sum() 2 america canada china japan korea 30 0 0 1 1 0 41 0 0 1 0 0 52 1 0 0 0 0 63 1 1 0 0 1

投稿2022/01/02 04:00

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tm1242

2022/01/02 06:21

ppaulさんありがとうございます! こちらで解決しそうです!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問