データ分析初心者です。
実践データ分析100本ノックをやっていますが、25本目で挙動がわからないところがあります。
どなたか教えて頂ければ幸いです。
よろしくお願いいたします。
コードは下の通りです。
print(uselog.head()) # log_id customer_id usedate # 0 L00000049012330 AS009373 2018-04-01 # 1 L00000049012331 AS015315 2018-04-01 # 2 L00000049012332 AS040841 2018-04-01 # 3 L00000049012333 AS046594 2018-04-01 # 4 L00000049012334 AS073285 2018-04-01 uselog["usedate"] = pd.to_datetime(uselog["usedate"]) uselog["年月"] = uselog["usedate"].dt.strftime("%Y%m") uselog_months = uselog.groupby(["年月", "customer_id"], as_index=False).count() print(uselog_months.head()) # 年月 customer_id log_id usedate # 0 201804 AS002855 4 4 # 1 201804 AS009013 2 2 # 2 201804 AS009373 3 3 # 3 201804 AS015315 6 6 # 4 201804 AS015739 7 7 uselog_months.rename(columns={"log_id": "count"}, inplace=True) del uselog_months["usedate"]
質問1.
一番最後の「use_log_months["usedate"]」には「4,2,3,6,7」と数値が入っています。
この数値はいつどのように入ってきているのでしょうか。
質問2.
log_idをcountと名前を変更しているみたいなのですが、なぜcountの結果がlog_idカラムに入ってきてしまっているのでしょうか?
どなたかご回答頂ければ幸いです。
よろしくお願いいたします。
groupbyについて調べることはされましたか?(何も調べていないように見受けられましたので)
すいませんでした。
グループ化した以外のカラムは全てcountが入るのですね。
カウントされたものが2カラムに表示されていたり、カラム名がそのままなので混乱してつい質問してしまいました。申し訳ございませんでした。
わざわざコメント頂いてしまいありがとうございました。
回答1件
あなたの回答
tips
プレビュー