別のデータフレームのセルの情報を条件にして、データフレームの抽出を行いたい

Question

### 前提 2ヵ月ほど前からpythonを触り始めました。 NoとDataの2つの列からなるデータフレーム(df1)上から、特定のNoの間の区間を複数個所抽出したい。凡そ1万行くらいのデータ特定のNoの区間はあらかじめ設定されており、別のデータフレーム(df2)に格納されている。イメージは下記の通りです。ここからデータを抽出したい |No|Data| |:--|:--:| |1|10| |2|13| |3|18| |…|…| |10000|120| 抽出したいNoが入っているリスト |始めのNo|終わりNo| |:--|:--:| |10|33| |40|98| |500|720| |1000|1450| ### 実現したいこと・df2で指定された条件の区間のNoをdf1から抽出したい・可能であれば、抽出されたそれぞれの区間のデータをData1,Data2のように名前付けして列に並べて表示したい。 ### 発生している問題抽出したい区間が凡そ20区間以下なので、今はdf1からdf2のデータを手打ちで打ち込んでqueryにて抽出してくるというやり方を行っていますが。同様のことを行いたいデータが複数あり、効率化したい状況です。 ### 該当のソースコード ```ここに言語名を import pandas as pd import numpy as np df1 = pd.DataFrame(np.arange(20000).reshape(10000, 2),columns=['No', 'Data']) df1['No'] = range(len(df1)) df1['Data']=np.linspace(0,120,10000) df2 = pd.DataFrame(np.arange(12).reshape(6,2),columns=['Start_No','End_No']) df2['Start_No']=[10,800,1300,3000,4000,8000] df2['End_No']=[130,1100,2500,3700,6000,8000] df_a = df1.query("10<=No<=130") df_a['No']=range(len(df_a)) df_a = df_a.rename(columns={'Data':'Data1'}) df_b = df1.query("800<=No<=1100") df_b['No']=range(len(df_b)) df_b = df_b.rename(columns={'Data':'Data2'}) df_fin= pd.merge(df_a,df_b,on=["No"],how="outer") print(df1) print(df2) print(df_fin) ``` ### 試したこといろいろ調べたのですが手打ち以外の手段を見つけられていません。。 ### 補足情報（FW/ツールのバージョンなど） google colabを使っています。

Accepted Answer

```python
import pandas as pd
import numpy as np

N = 10000
df1 = pd.DataFrame({
  'No': range(1, N+1),
  'Data': np.random.randint(0, 120, N)
})

df2 = pd.DataFrame({
  '始めのNo': [10, 40, 500, 1000],
  '終わりNo': [33, 98, 720, 1450],
})

#
dfx = df2.apply(lambda x: df1[df1['No'].between(*x)], axis=1).to_list()
dfx = pd.concat(dfx).reset_index(drop=True)
print(dfx)

#
       No  Data
0      10    56
1      11   107
2      12    43
3      13    14
4      14    12
..    ...   ...
750  1446    58
751  1447    30
752  1448    99
753  1449   105
754  1450    62

[755 rows x 2 columns]
```

> 可能であれば、抽出されたそれぞれの区間のデータをData1,Data2のように名前付けして列に並べて表示したい。

区間の長さ(行数)が異なるので、不足分は `NaN` で埋められる事になります。

```python
dfx = df2.apply(lambda x: df1[df1['No'].between(*x)].reset_index(drop=True), axis=1).to_list()
cols = [f'{c}{i}' for i, dfi in enumerate(dfx, start=1) for c in dfi.columns]
dfx = pd.concat(dfx, axis=1).set_axis(cols, axis=1)
print(dfx)

#
      No1  Data1   No2  Data2    No3  Data3   No4  Data4
0    10.0   28.0  40.0   52.0  500.0    8.0  1000     22
1    11.0   90.0  41.0   23.0  501.0   98.0  1001    104
2    12.0   90.0  42.0   66.0  502.0   25.0  1002     91
3    13.0   32.0  43.0   63.0  503.0   86.0  1003      9
4    14.0   78.0  44.0  104.0  504.0   39.0  1004      1
..    ...    ...   ...    ...    ...    ...   ...    ...
446   NaN    NaN   NaN    NaN    NaN    NaN  1446     39
447   NaN    NaN   NaN    NaN    NaN    NaN  1447    113
448   NaN    NaN   NaN    NaN    NaN    NaN  1448     78
449   NaN    NaN   NaN    NaN    NaN    NaN  1449     96
450   NaN    NaN   NaN    NaN    NaN    NaN  1450     57

[451 rows x 8 columns]
```

Answer

区間のデータをdfにする必要がなければこんな感じで。

```python
start_list = [10,800,1300,3000,4000,8000]
end_list = [130,1100,2500,3700,6000,8000]

tmp_result = []
for start, end in zip(start_list, end_list):
    df_tmp = df1.query(f"{start}<=No<={end}")
    df_tmp['No']=range(len(df_tmp))
    df_tmp = df_tmp.rename(columns={'Data':'Data1'}) 
    tmp_reslt.append(df_tmp)
df_fin= pd.merge(tmp_result,on=["No"],how="outer")
```
こんな感じでどうでしょう。 未確認なので、間違えているかもしれませんｇ。
また、startとendを別にしなくていいのであれば、
```python
section_list = [[10, 130], [800, 11000], ...] 
```
とすれば、zipは不要ですし、わかりやすいかと。

No	Data
1	10
2	13
3	18
…	…
10000	120

始めのNo	終わりNo
10	33
40	98
500	720
1000	1450

前提

実現したいこと

発生している問題

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問