Python groupby count 　質問です

Question

質問です。

wineのデータ（qualityとその他情報）を、品質ごとにグループ分けしてその数を数える、ということをやろうとしています。コードは以下の通りです。
```python
import pandas as pd

wine=pd.read_csv("winequality-white.csv", sep=";", encoding="utf-8")

count_data=wine.groupby("quality")["quality"].count()
print(count_data)
```

これでエラー無く実行できました。ですが、一つ疑問があります。
「count_data=wine.groupby("quality")["quality"].count()」ここの部分はどういう構造になっているのですか？？groupby("quality")までは、groupbyの特性としてqualityごとにグループ分けをしていることが理解できるのですが、それ以降の部分が理解できません。

ご回答お願い致します。

Accepted Answer

- count_data=wine.groupby("quality")["quality"].count() はなにをやっているか。複雑でわかりにくいものはバラバラにして調べるのが常道です。 - wine.groupby("quality")の調べ方 ```python >>> print(wine.groupby("quality")) >>> print(type(wine.groupby("quality"))) ``` これが何かを調べるために、以下を実行してみてください。 ```python >>> print(pd.core.groupby.generic.DataFrameGroupBy) >>> print(pd.core.groupby.generic) ``` これが意味するのは、以下の二点です。 0. pandas.core.groupby.genericというモジュールは'C:\Users\myname\anaconda3\lib\site-packages\pandas\core\groupby\generic.py'というファイルを読んで作られている。 0. wine.groupby("quality")は、pandas.core.groupby.genericというモジュールの中で定義されているクラスDataFrameGroupByのインスタンスである。モジュールについては、[公式ドキュメントチュートリアル 6. モジュール](https://docs.python.org/ja/3/tutorial/modules.html)をお読みください。クラとインスタンスについては、[公式ドキュメントチュートリアル 9. クラス](https://docs.python.org/ja/3/tutorial/classes.html)をお読みください。 - groupby("quality")までは、groupbyの特性としてqualityごとにグループ分けをしていることが理解できるそれは誤解です。 groupby("quality")メソッドでDataFrameGroupByのインスタンスを作成しましたが、まだグループ分けはしていません。 ```python >>> for key,value in wine.groupby("quality").__dict__.items(): ... print(key, ':', value) ... _selection : None level : None as_index : True keys : quality sort : True group_keys : True squeeze : False observed : False mutated : False dropna : True obj : fixed acidity volatile acidity citric acid residual sugar ... pH sulphates alcohol quality 0 7.0 0.27 0.36 20.7 ... 3.00 0.45 8.8 6 1 6.3 0.30 0.34 1.6 ... 3.30 0.49 9.5 6 2 8.1 0.28 0.40 6.9 ... 3.26 0.44 10.1 6 ... ... ... ... ... ... ... ... ... ... 4895 6.5 0.24 0.19 1.2 ... 2.99 0.46 9.4 6 4896 5.5 0.29 0.30 1.1 ... 3.34 0.38 12.8 7 4897 6.0 0.21 0.38 0.8 ... 3.26 0.32 11.8 6 [4898 rows x 12 columns] axis : 0 grouper : exclusions : {'quality'} ``` をみればわかるように、作られたDataFrameGroupByのインスタンスの属性objにはデータフレームwineがそのまま入っているだけです。まだグループ分けはしていません。 - wine.groupby("quality")["quality"]の調べ方初心者のうちは、ここが一番わかりにくいでしょう。 ```python []は特殊メソッド__getitem__を呼び出します。 >>> wine.groupby("quality").__getitem__ > なぜ__getitem__を呼び出すかは以下読んでください。 ``` [公式ドキュメント言語リファレンス 3.3.7. コンテナをエミュレートする](https://docs.python.org/ja/3/reference/datamodel.html?highlight=__call__#emulating-container-types) wine.groupby("quality")["quality"]とwine.groupby("quality").__getitem__("quality")が同じことをやっているのを確認するには、以下を実行してみてください。 ```python >>> wine.groupby("quality").__getitem__("quality") >>> print(wine.groupby("quality")["quality"]) ``` アドレスが違うのは二回呼び出しているためで、中身は同じです。 wine.groupby("quality")["quality"]が何であるかを調べるために、以下を実行してみてください。 ```python>>> print(type(wine.groupby("quality")["quality"])) ``` これからわかるように、wine.groupby("quality")は、クラスDataFrameGroupByのインスタンスであったのに対して、wine.groupby("quality")["quality"]はクラスSeriesGroupByのインスタンスです。どこが違うのかを調べるために以下を実行してみてください。 ```python >>> for key,value in wine.groupby("quality")["quality"].__dict__.items(): ... print(key, ':', value) ... _selection : quality level : None as_index : True keys : None sort : True group_keys : True squeeze : False observed : False mutated : False dropna : True obj : 0 6 1 6 2 6 .. 4895 6 4896 7 4897 6 Name: quality, Length: 4898, dtype: int64 axis : 0 grouper : exclusions : set() ``` つまり、wine.groupby("quality").__dict__と比べると、wine.groupby("quality")の場合は属性objがDataFrameでしたが、wine.groupby("quality")["quality"]では属性objがSeriesに変わっています。 - countは何をしているか。この場合、countはpandas.core.groupby.generic.SeriesGroupByというクラスのインスタンスメソッドです。 ```python >>> type(wine.groupby("quality")["quality"]).__dict__['count'] ``` このメソッドの説明だけでよければ、以下で読むことができます。(英語です) ```python print(wine.groupby("quality")["quality"].count.__doc__) ``` このメソッドが何をやっているかを本当に知りたければsite-packages/pandas/core/groupby/generic.pyの804行目あたりにある、「def count(self)」からはじまるメソッド定義を読めば良いのです。 pandasの公式マニュアルは、[pandas.DataFrame.groupby ](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)とか[pandas.Series.groupby ](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.groupby.html)なのですが、あまり詳しく書いていないので、最後はソースを読むしかありません。

関連した質問