回答編集履歴

2024/07/03 07:49

投稿

スコア21283

answer CHANGED Viewed

@@ -24,13 +24,11 @@
 df = pd.read_csv(io.StringIO(csv_data))
 #
-uid = [uuid4() for _ in range(len(df))]
+uid_iter = (uuid4() for _ in range(len(df)))
-uid_iter = iter(uid)
 cols = df.columns.to_list()
 df['cumcount'] = df.groupby(cols).cumcount()
 df['uniqueid'] = df.groupby(['居住地', '勤務地', 'cumcount'], sort=False)['cumcount'].transform(lambda _: next(uid_iter))
-l = len(uid) - len([*uid_iter])
-df = df.set_index('uniqueid').loc[uid[:l]].reset_index()[[*cols, 'uniqueid']]
+df = df.set_index('uniqueid').loc[df['uniqueid'].unique()].reset_index()[[*cols, 'uniqueid']]
 print(df)
 ```

uuid4() 版に書き換え

2024/07/03 07:42

投稿

melian

スコア21283

answer CHANGED Viewed

@@ -1,15 +1,7 @@
-> 【実現したいこと】の別の言い方になります。
-> 以下の【df】のデータを上からなめていき、
-> 「居住地」「勤務地」がそれぞれ同一で、「day」が15のデータに”abc123”のダミーデータを「uniqueid」列に割り当てます。
->  :
->
-> 「居住地」「勤務地」がそれぞれ同一で、「day」が15のデータに”abc456”のダミーデータを「uniqueid」列に割り当て、以降、同じことを繰り返します。
-最初に `pandas.core.groupby.DataFrameGroupBy.cumcount()` で「居住地」「勤務地」「day」が同一の行に出現順で連番(cumcount)を付与して、次に「居住地」「勤務地」「cumcount」でグループ化して uniqueid を割り当てます。
 ```python
 import pandas as pd
 import io
+from uuid import uuid4
 csv_data = '''
 居住地,勤務地,day
@@ -32,31 +24,13 @@
 df = pd.read_csv(io.StringIO(csv_data))
 #
-uid = ['abc123', 'aabbcc', 'abc456', 'abc789', 'efg123', 'efg456', 'efg789']
+uid = [uuid4() for _ in range(len(df))]
 uid_iter = iter(uid)
 cols = df.columns.to_list()
-cum_cols = ['居住地', '勤務地', 'cumcount']
 df['cumcount'] = df.groupby(cols).cumcount()
-df['uniqueid'] = df.groupby(cum_cols, sort=False)['cumcount'].transform(lambda _: next(uid_iter))
+df['uniqueid'] = df.groupby(['居住地', '勤務地', 'cumcount'], sort=False)['cumcount'].transform(lambda _: next(uid_iter))
+l = len(uid) - len([*uid_iter])
-df = df.set_index('uniqueid').loc[uid].reset_index()[cols + ['uniqueid']]
+df = df.set_index('uniqueid').loc[uid[:l]].reset_index()[[*cols, 'uniqueid']]
 print(df)
 ```
-|   居住地 |   勤務地 |   day | uniqueid   |
-|---------:|---------:|------:|:-----------|
-|   111111 |   112233 |    15 | abc123     |
-|   111111 |   112233 |    16 | abc123     |
-|   111111 |   112233 |    17 | abc123     |
-|   111111 |   112233 |    15 | aabbcc     |
-|   111111 |   112233 |    16 | aabbcc     |
-|   111111 |   112233 |    17 | aabbcc     |
-|   928845 |   817264 |    15 | abc456     |
-|   200980 |   200121 |    15 | abc789     |
-|   200980 |   200121 |    16 | abc789     |
-|   548192 |   556119 |    15 | efg123     |
-|   548192 |   556119 |    16 | efg123     |
-|   548192 |   556119 |    17 | efg123     |
-|   178260 |   178227 |    16 | efg456     |
-|   178260 |   178227 |    17 | efg456     |
-|   333704 |   333882 |    17 | efg789     |

2024/07/03 04:49

投稿

melian

スコア21283

answer CHANGED Viewed

@@ -1,65 +1,62 @@
+> 【実現したいこと】の別の言い方になります。
+> 以下の【df】のデータを上からなめていき、
-以下、`uniqueid` は `uuid.uuid4()` で生成しています。(Pandas のバージョンは `2.2.2`)
+> 「居住地」「勤務地」がそれぞれ同一で、「day」が15のデータに”abc123”のダミーデータを「uniqueid」列に割り当てます。
+>  :
+>
+> 「居住地」「勤務地」がそれぞれ同一で、「day」が15のデータに”abc456”のダミーデータを「uniqueid」列に割り当て、以降、同じことを繰り返します。
+最初に `pandas.core.groupby.DataFrameGroupBy.cumcount()` で「居住地」「勤務地」「day」が同一の行に出現順で連番(cumcount)を付与して、次に「居住地」「勤務地」「cumcount」でグループ化して uniqueid を割り当てます。
 ```python
 import pandas as pd
 import io
-from uuid import uuid4
 csv_data = '''
-id,居住地,勤務地,day
+居住地,勤務地,day
-aa1,111111,112233,15
+111111,112233,15
-aa2,111112,112231,15
+111111,112233,15
-aa3,111113,112232,15
-aa4,111114,112234,15
+928845,817264,15
+200980,200121,15
-aa5,111115,112235,15
+548192,556119,15
-aa6,111116,112236,15
-bb1,111111,112233,16
+111111,112233,16
-bb3,111113,112232,16
+111111,112233,16
-bb5,111115,112235,16
+178260,178227,16
+200980,200121,16
-bb6,111116,112236,16
+548192,556119,16
-cc1,111111,112233,17
+111111,112233,17
-cc3,111113,112232,17
+111111,112233,17
-cc5,111115,112235,17
+178260,178227,17
+333704,333882,17
+548192,556119,17
 '''
 df = pd.read_csv(io.StringIO(csv_data))
 #
+uid = ['abc123', 'aabbcc', 'abc456', 'abc789', 'efg123', 'efg456', 'efg789']
+uid_iter = iter(uid)
+cols = df.columns.to_list()
-df = df.groupby(['居住地', '勤務地'])\
+cum_cols = ['居住地', '勤務地', 'cumcount']
-       .apply(lambda x: x.assign(uniqueid=uuid4()), include_groups=False)\
+df['cumcount'] = df.groupby(cols).cumcount()
+df['uniqueid'] = df.groupby(cum_cols, sort=False)['cumcount'].transform(lambda _: next(uid_iter))
-       .reset_index()[[*df.columns]+['uniqueid']]
+df = df.set_index('uniqueid').loc[uid].reset_index()[cols + ['uniqueid']]
 print(df)
 ```
-| id   |   居住地 |   勤務地 |   day | uniqueid                             |
+|   居住地 |   勤務地 |   day | uniqueid   |
-|:-----|---------:|---------:|------:|:-------------------------------------|
+|---------:|---------:|------:|:-----------|
-| aa1  |   111111 |   112233 |    15 | 7dac6c94-7526-45f1-a74a-76af595a400e |
+|   111111 |   112233 |    15 | abc123     |
-| bb1  |   111111 |   112233 |    16 | 7dac6c94-7526-45f1-a74a-76af595a400e |
+|   111111 |   112233 |    16 | abc123     |
-| cc1  |   111111 |   112233 |    17 | 7dac6c94-7526-45f1-a74a-76af595a400e |
+|   111111 |   112233 |    17 | abc123     |
-| aa2  |   111112 |   112231 |    15 | 2003f6a2-4d24-4f4d-986b-3b0db50d965e |
-| aa3  |   111113 |   112232 |    15 | ccc77569-cbe5-4d62-8e54-b4a98c6d43c4 |
-| bb3  |   111113 |   112232 |    16 | ccc77569-cbe5-4d62-8e54-b4a98c6d43c4 |
-| cc3  |   111113 |   112232 |    17 | ccc77569-cbe5-4d62-8e54-b4a98c6d43c4 |
-| aa4  |   111114 |   112234 |    15 | 5f91dab6-480e-4954-94fe-fb665e418886 |
-| aa5  |   111115 |   112235 |    15 | 6e89292b-e97d-4933-b173-9cecc4901c91 |
+|   111111 |   112233 |    15 | aabbcc     |
-| bb5  |   111115 |   112235 |    16 | 6e89292b-e97d-4933-b173-9cecc4901c91 |
+|   111111 |   112233 |    16 | aabbcc     |
-| cc5  |   111115 |   112235 |    17 | 6e89292b-e97d-4933-b173-9cecc4901c91 |
+|   111111 |   112233 |    17 | aabbcc     |
-| aa6  |   111116 |   112236 |    15 | 17fec027-e4ea-49bd-a325-94ecba5fd446 |
+|   928845 |   817264 |    15 | abc456     |
+|   200980 |   200121 |    15 | abc789     |
+|   200980 |   200121 |    16 | abc789     |
+|   548192 |   556119 |    15 | efg123     |
+|   548192 |   556119 |    16 | efg123     |
+|   548192 |   556119 |    17 | efg123     |
-| bb6  |   111116 |   112236 |    16 | 17fec027-e4ea-49bd-a325-94ecba5fd446 |
+|   178260 |   178227 |    16 | efg456     |
-### 追記
-> 記載いただいたコードを実行しますと、以下のエラーが出ます。
-> `TypeError: <lambda>() got an unexpected keyword argument 'include_groups'`
-> `include_groups` キーワードは `Pandas 2.2.0` で導入されましたので、おそらく、そちらでお使いのバージョンが `2.2.0` よりも前のものだと思われます。
-`Pandas 2.1.4` の場合では以下の様になります。
-```python
-df = df.groupby(['居住地', '勤務地'], as_index=False)\
-       .apply(lambda x: x.assign(uniqueid=uuid4()))\
+|   178260 |   178227 |    17 | efg456     |
-       .reset_index(drop=True)
+|   333704 |   333882 |    17 | efg789     |
-print(df)
-```

2024/07/02 13:07

投稿

melian

スコア21283

answer CHANGED Viewed

@@ -62,4 +62,4 @@
        .reset_index(drop=True)
 print(df)
-```
+```

2024/07/02 13:03

投稿

melian

スコア21283

answer CHANGED Viewed

@@ -1,4 +1,4 @@
-以下、`uniqueid` は `uuid.uuid4()` で生成しています。
+以下、`uniqueid` は `uuid.uuid4()` で生成しています。(Pandas のバージョンは `2.2.2`)
 ```python
 import pandas as pd
@@ -46,3 +46,20 @@
 | cc5  |   111115 |   112235 |    17 | 6e89292b-e97d-4933-b173-9cecc4901c91 |
 | aa6  |   111116 |   112236 |    15 | 17fec027-e4ea-49bd-a325-94ecba5fd446 |
 | bb6  |   111116 |   112236 |    16 | 17fec027-e4ea-49bd-a325-94ecba5fd446 |
+### 追記
+> 記載いただいたコードを実行しますと、以下のエラーが出ます。
+> `TypeError: <lambda>() got an unexpected keyword argument 'include_groups'`
+> `include_groups` キーワードは `Pandas 2.2.0` で導入されましたので、おそらく、そちらでお使いのバージョンが `2.2.0` よりも前のものだと思われます。
+`Pandas 2.1.4` の場合では以下の様になります。
+```python
+df = df.groupby(['居住地', '勤務地'], as_index=False)\
+       .apply(lambda x: x.assign(uniqueid=uuid4()))\
+       .reset_index(drop=True)
+print(df)
+```