pandasデータフレームで3列の情報を2列に整理したい

pythonで機械学習のためにデータの前処理をしようとしています。

以下のようなデータがあるとします。
|ブレンド|カフェラテ|カプチーノ|
|S| | |
| |M| |
| | |L|
| |S| |

サイズを数値に変換し、以下のような表になっています。ここまではExcelで作成されていて、csvで保存されています。

ブレンドカフェラテカプチーノ

1 0 0

0 2 0

0 0 3

0 1 0

ただこれだとスパースになってしまうので、以下のようにしたいです。
ブレンド:1 カフェラテ:2 カプチーノ:3 に置換して

種類サイズ

1 1

2 2

3 3

2 1

pandasのデータフレームでこのような処理を簡単に行う方法はありますでしょうか。

最初のデータでは３列のうち１列にしか値が入っていないので、「サイズ」の列については３つの列の合計を入れるようにしてみました。
(insertを使っているのは、３列目以降に別のカテゴリの同じようなデータがあるためです）

python3
1df.insert(3, "サイズ", 0)
2df["サイズ"] = df["ブレンド"]+df["カフェラテ"]+df["カプチーノ"]
3

「種類」の列については、新しい列を作って「ブレンド」の列が0以外なら1, 「カフェラテ」の列が0以外なら2, 「カプチーノ」の列が0以外なら3を入れたいです。

jupyter notebookでpython3.7を使っています。

よろしくお願いいたします。

meg_

2020/10/07 00:16

> サイズを数値に変換し、以下のような表になっていますコードを載せましょう。

miraMirar

2020/10/07 00:31

ご指摘ありがとうございます。ほとんど何もできていない段階ですが、コードを載せました。

meg_

2020/10/07 02:08 編集

すみません。途中の変換はエクセルでしてたんですね。変換前のデータの方が扱い易そうに見えますが、どうでしょうか？また、エクセルでの変換はどう処理されたのでしょうか？

toast-uz

2020/10/07 03:51

エクセルからDataFrameに読み込む部分、DataFrameを変換する部分に、問題を分けて下さい。後者を聞きたいのが主旨だと思いますので、前者まではコードを提示して読み込んだDataFrameを示してください。また、後者の質問と考えた場合、種類としての数値が変換元に情報が無いです。ブレンド等の文字列にするのか、数値にするのか、変換前後で合わせて下さい。

miraMirar

2020/10/07 05:06

meg様変換前のデータは手元になく、csvをもらって作業しています。紛らわしい書き方になっていたので修正しました。

miraMirar

2020/10/07 05:07

toast-uz様ご指摘ありがとうございます。問題を分けて整理しました。また思いつく範囲でできることを試してみました。

行動規範の内容に同意します

回答1件

ベストアンサー

行にひとつしか値がない前提です。
各行の最大値と最大値のカラム名をとってくるようにしてみました。

python
1import pandas as pd
2
3df = pd.DataFrame(
4    [[1, 0, 0], [0, 2, 0], [0, 0, 3], [0, 1, 0]],
5    columns=['ブレンド', 'カフェラテ', 'カプチーノ'])
6
7# 変換処理
8map_dict= {'ブレンド': 1, 'カフェラテ': 2, 'カプチーノ': 3}
9df.insert(3, '種類', df[['ブレンド', 'カフェラテ', 'カプチーノ']].idxmax(axis=1).replace(map_dict))
10df.insert(4, 'サイズ', df[['ブレンド', 'カフェラテ', 'カプチーノ']].max(axis=1))