編集履歴

回答編集履歴

いろんなコードを試行してみました

2020/02/20 04:36

投稿

スコア1399

answer CHANGED Viewed

@@ -1,11 +1,29 @@
+その1：質問のコードを直したもの
 ```python
-df['Season'].astype(str).str.cat([
+df["ID"] = df['Season'].astype(str).str.cat([
     df[['WTeamID', 'LTeamID']].min(1).astype(str),
     df[['WTeamID', 'LTeamID']].max(1).astype(str)], '_')
 ```
-## 解説
+その2：より簡単なコード
+```python
+df["ID"] = df['Season'].astype(str).str.cat(
+    np.sort(df[['LTeamID', 'WTeamID']].to_numpy()).astype(str), '_')
+```
+その3：リストを使う方法
+```python
+arr_s = df['Season'].tolist()
+arr_lw = np.sort(df[['LTeamID', 'WTeamID']].to_numpy()).tolist()
+df["ID"] = pd.Series([f'{s}_{lw[0]}_{lw[1]}' for s, lw in zip(arr_s, arr_lw)],
+                     index=df.index)
+```
+## 解説（その1）
 > ①str(df["Season"])　のoutputがdataframe形式で返されない
 `str()`は文字列型を返す関数です。`pd.Series`（或いは`pd.DataFrame`）のデータ型を文字列型（正確にはオブジェクト型）にする場合は`pd.Series.astype(str)`を使います。
@@ -87,10 +105,10 @@
 したがって、
 ```python
-In [28]: df['Season'].astype(str).str.cat([
+In [26]: df['Season'].astype(str).str.cat([
        2     df[['WTeamID', 'LTeamID']].min(1).astype(str),
        3     df[['WTeamID', 'LTeamID']].max(1).astype(str)], '_')
-Out[28]:
+Out[26]:
 1916    2015_1214_1264
 1917    2015_1140_1279
 1918    2015_1129_1173
@@ -103,4 +121,83 @@
 1981    2015_1246_1458
 1982    2015_1181_1458
 Name: Season, dtype: object
-```
+```
+## 解説（その2）
+今回の場合、数値を比較して「小さい方_大きい方」という部分がありますが、この部分は`np.sort()`を使うって行ごとに「小さい→大きい」順に並べ替えした配列を作るのが簡便です。
+つまり、
+```python
+In [5]: arr = np.sort(df[['LTeamID', 'WTeamID']].to_numpy())
+      2 arr
+Out[5]:
+array([[1214, 1264],
+       [1140, 1279],
+       [1129, 1173],
+       [1316, 1352],
+       [1112, 1411],
+        ...   ...
+       [1181, 1211],
+       [1257, 1277],
+       [1181, 1277],
+       [1246, 1458],
+       [1181, 1458]], dtype=int64)
+In [6]: df['Season'].astype(str).str.cat(arr.astype(str), '_')
+Out[6]:
+1916    2015_1214_1264
+1917    2015_1140_1279
+1918    2015_1129_1173
+1919    2015_1316_1352
+1920    2015_1112_1411
+...     ...
+1978    2015_1181_1211
+1979    2015_1257_1277
+1980    2015_1181_1277
+1981    2015_1246_1458
+1982    2015_1181_1458
+Name: Season, dtype: object
+```
+## 解説（その3）
+pandasの`str`関連メソッドは実際にはとても動作が遅いです。標準のリストになおしてforループした方が速い場合があります。
+```python
+In [11]: arr_s = df['Season'].tolist()
+       2 arr_lw = np.sort(df[['LTeamID', 'WTeamID']].to_numpy()).tolist()
+       3 id_list = [f'{s}_{lw[0]}_{lw[1]}' for s, lw in zip(arr_s, arr_lw)]
+       4 id_list
+Out[11]:
+['2015_1214_1264',
+ '2015_1140_1279',
+ '2015_1129_1173',
+ '2015_1316_1352',
+ '2015_1112_1411',
+ '2015_1181_1211',
+ '2015_1257_1277',
+ '2015_1181_1277',
+ '2015_1246_1458',
+ '2015_1181_1458']
+In [12]: pd.Series(id_list, index=df.index)
+Out[12]:
+1916    2015_1214_1264
+1917    2015_1140_1279
+1918    2015_1129_1173
+1919    2015_1316_1352
+1920    2015_1112_1411
+1978    2015_1181_1211
+1979    2015_1257_1277
+1980    2015_1181_1277
+1981    2015_1246_1458
+1982    2015_1181_1458
+dtype: object
+```
+## 処理速度の比較
+![処理速度の比較](5661b66313ff2c73cf29f9e52b76e9e4.png)
+その３（リストを使う方法）が最も速いようです。@can110氏の方法（`df.apply`を使った方法）はデータ数が少ないときは次いで速いですが、行数が増えるとかなり遅くなります。