前提・実現したいこと
データが膨大なため、pandasを用いて、加工前データをもとに理想図のような集計表を作りたいです。また、その集計表を用いて、基礎統計量を計算したいです。
実際のデータは行数が750万件あり、Excelでは対応しきれないため、pandasで実現したいと考えています。
具体的には、加工前のカラム(ヘッダ)にある"状態"を、インデックス側に持ってくることで、理想図のような表を作り、集計したいです。(データ自体はダミーですが、レイアウトが同じです。)
- 車の区分とは、車の大きさによって割り当てられたコードです。大きさでの割り振りなので、重複があります。
- 各状態は、車の故障の種類です。数字は、故障の重度レベルです(数字が大きいほど重篤な故障)。
- 社名は、修理に使った修理会社の名前です。数字は、サービスの利用回数です。
上記のような表を作成するためには、pandasでどのような操作を行えばよいか、ご教示いただけると幸いです。
恥ずかしながらpython,pandasはズブの素人で、自分の分かる範囲でcrosstabメソッドなどを試しましたが、ほしい表が出力されません。
必ずしも一発で上の表を出す必要はなく、別個に計算してマージなどでも構いません。
最終的に理想図の表が完成すればよい、というイメージです。
発生している問題・エラーメッセージ
いまのところ、"状態"と"社名"を表す上位のヘッダをもう一つ追加して(マルチカラム)、stackメソッドを行えばよいかと思っていますが、手元で再現できていません。
pythonの問題というより、統計の浅学が影響しているかもしれませんが、上記のような表の作成について、解決方法がありましたらご教示いただけると幸いです。
エラーメッセージ 特にございません。
該当のソースコード
ソースコード 特にございません。
試したこと
- stackメソッドによる列から行への移動。全体が行側にピボットしてしまいました。
- マルチカラムに加工してからstackする。マルチカラムに加工する時点で、手間取っています。
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。![イメージ説明]