回答編集履歴

回答に追記

2023/07/06 06:41

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -18,7 +18,7 @@
 )
 ```
-## 追記
+## 追記1
 以下の2点
 1. DataFrame.groupby メソッドを使うこと
 2. 最終的に得たい DataFrame のカラムの並び順を質問にあるように `01_100m, 01_1000m, 02_100m, 02_1000m`  とすること
@@ -35,3 +35,30 @@
 **上記の実行例:**
 ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-07-06/8e4e323b-2224-44e0-9467-158e130798d2.png)
+## 追記2
+`df.groupby` の第1引数には、各列名に対応するグループ化するときのキーを得る関数をそのまま渡せるので、追記1に書いた2行
+```python
+cols_map = {col: get_key(col) for col in df.columns}
+total_df = df.groupby(cols_map, axis=1, sort=True).sum().rename(columns=lambda col: f'{col}m')
+```
+は、dict `cols_map` を作らずとも以下の1行で済むところでした。
+```python
+total_df = df.groupby(get_key, axis=1, sort=True).sum().rename(columns=lambda k: f'{k}m')
+```
+**備考**
+さらにリファクタの思いつきですが、グループ化のキーに末尾の`'m'` を含めるか含まないかでソート結果が変わってしまうのを気にしたコードを書くのはやや煩雑なので
+- `get_key`関数は `'01男性_有効_有効_100m'` に対して `('01', 100)` というタプルを返させるようにして、
+- 集計したDataFrameの列を rename するときの columns に、このタプルから `'01_100m'` を返すlambdaを指定する
+というのもアリかなと思いました。

回答に追記

2023/07/06 05:07

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -17,3 +17,21 @@
     {f'{key}m': df[cols].sum(axis=1) for key, cols in col_groups}
 )
 ```
+## 追記
+以下の2点
+1. DataFrame.groupby メソッドを使うこと
+2. 最終的に得たい DataFrame のカラムの並び順を質問にあるように `01_100m, 01_1000m, 02_100m, 02_1000m`  とすること
+が求められているのであれば、下記のようにします。(`get_key`関数は先述したものをそのまま使います)
+```python
+cols_map = {col: get_key(col) for col in df.columns}
+total_df = df.groupby(cols_map, axis=1, sort=True).sum().rename(columns=lambda col: f'{col}m')
+```
+上記のように`df.groupby` のキーワード引数 `sort` にTrueを指定しますが、このときに 上記の 2. のような列の並びを得るためには、`get_key`関数で得られる各列名のキーには末尾の`m` を含めないようにしておく必要があります。そのため集計してから、あらためて各列の末尾に `m` を付加しています。
+**上記の実行例:**
+![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-07-06/8e4e323b-2224-44e0-9467-158e130798d2.png)

回答プログラム修正

2023/07/05 23:18

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -5,7 +5,7 @@
 import re
 def get_key(x):
-    return re.sub(r'^(\d{2})[^\d]+(\d+)m$', r'\1-\2', x)
+    return re.sub(r'^(\d{2})[^\d]+(\d+)m$', r'\1_\2', x)
 ```
 この `get_key(x)` を使って列をグループ化し、同じキーとなる列を合計したSeriesを各列とするDataFarame `total_df` を作るには以下のようにします。

回答プログラム修正

2023/07/05 23:08

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -5,7 +5,7 @@
 import re
 def get_key(x):
-    return re.sub(r'^(\d{2})[^0-9]+(\d+)m$', r'\1-\2', x)
+    return re.sub(r'^(\d{2})[^\d]+(\d+)m$', r'\1-\2', x)
 ```
 この `get_key(x)` を使って列をグループ化し、同じキーとなる列を合計したSeriesを各列とするDataFarame `total_df` を作るには以下のようにします。

回答テキスト修正

2023/07/05 23:06

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -1,6 +1,6 @@
 元データから作ったDataFrame を `df` とします。（ただし`UID` は`df`のインデクスに使用するものとします。）
-まず、`'01男性_有効_有効_100m'` という文字列から `'01_100m'` という文字列を得る関数を作っておきます。
+まず、`'01男性_有効_有効_100m'` という文字列から ~~`'01_100m'`~~  `'01_100'` という文字列を得る関数を作っておきます。
 ```python
 import re