回答編集履歴

Update

2022/03/25 23:45

投稿

melian

スコア21343

answer CHANGED Viewed

@@ -1,36 +1,20 @@
+> crosstab() で dropna=False については下記のコードではageの'10-19'が表示できませんでした。どこがまちがっているでしょうか。
-`groupby` で代用してみました。
+`df['age']` を `pd.core.dtypes.dtypes.CategoricalDtype` 型にキャストする必要があります。
 ```python
 import pandas as pd
+import numpy as np
-df = pd.DataFrame({
-  'name': [chr(i) for i in range(65, 88)],
-   'age': [*range(7), *range(10, 14), *range(30, 40), 30, 31],
-   'sex': [*['M']*3, *['F']*4, *['M']*2, *['F']*2, *['M']*4, *['F']*8],
+df=pd.DataFrame({'age':['0-9','20-29','0-9','30-39'],'sex':[1,2,2,1]})
+category = pd.api.types.CategoricalDtype(['0-9','10-19','20-29','30-39'])
+b=pd.crosstab(df['age'].astype(category),df['sex'],dropna=False)
+print(b)
-})
 #
-count = (
-  df.groupby([pd.cut(df['age'], bins=[0, 10, 20, 30, 40], right=False,
-                     labels=['0-9', '10-19', '20-29', '30-39']), 'sex'])
-    .size().unstack()[['M', 'F']])
-#
-sex    M  F
+sex    1  2
 age
-0-9    3  4
+0-9    1  1
-10-19  2  2
+10-19  0  0
-20-29  0  0
+20-29  0  1
-30-39  4  8
+30-39  1  0
 ```
-**追記**
-> crosstab() で dropna=False については下記のコードではageの'10-19'が表示できませんでした。どこがまちがっているでしょうか。
-`df2['age']` を `pd.core.dtypes.dtypes.CategoricalDtype` 型にキャストする必要があります。
-```python
-df2['age'] = df2['age'].astype('category')
-b=pd.crosstab(df2['age'],df2['sex'],dropna=False)
-print(b)
-```

Update

2022/03/25 23:38

投稿

melian

スコア21343

answer CHANGED Viewed

@@ -22,4 +22,15 @@
 10-19  2  2
 20-29  0  0
 30-39  4  8
-```
+```
+**追記**
+> crosstab() で dropna=False については下記のコードではageの'10-19'が表示できませんでした。どこがまちがっているでしょうか。
+`df2['age']` を `pd.core.dtypes.dtypes.CategoricalDtype` 型にキャストする必要があります。
+```python
+df2['age'] = df2['age'].astype('category')
+b=pd.crosstab(df2['age'],df2['sex'],dropna=False)
+print(b)
+```

Update

2022/03/24 15:23

投稿

melian

スコア21343

answer CHANGED Viewed

@@ -1,4 +1,4 @@
-`groupby` で代用してみました。※ index の label は適宜付けて下さい
+`groupby` で代用してみました。
 ```python
 import pandas as pd
@@ -11,15 +11,15 @@
 #
 count = (
-  df.groupby([pd.cut(df['age'], bins=[0, 10, 20, 30, 40], right=False), 'sex'])
+  df.groupby([pd.cut(df['age'], bins=[0, 10, 20, 30, 40], right=False,
+                     labels=['0-9', '10-19', '20-29', '30-39']), 'sex'])
-    .count()['age'].unstack()[['M', 'F']])
+    .size().unstack()[['M', 'F']])
-print(count)
 #
-sex       M  F
+sex    M  F
-age
+age
-[0, 10)   3  4
+0-9    3  4
-[10, 20)  2  2
+10-19  2  2
-[20, 30)  0  0
+20-29  0  0
-[30, 40)  4  8
+30-39  4  8
 ```