Python：２つのデータフレームを比較し，時間が近いものを抜き出す

Question

##前提・実現したいこと
いつもお世話になっております。データフレームの取扱が分からず、質問させていただきます。

次の２つのCSVファイルがあるとします。
（本当はソースコードの中でデータフレームとして定義した方が答えやすいのですが，
pandas.DataFrameからdate_parserが呼び出せない？(違ったらスミマセン)ので
CSVからデータフレームを作成したことにしています）

・machine.csv
次のものが機械が特定の動作をする時間を記録したものとします。
左のmachine列が機械の種類、time列が特定の動作をする時間です。
```
//machine.csv
machine,time
A,10:00:00
A,10:00:05
A,10:00:10
A,10:00:15
A,10:00:25
B,10:00:05
B,10:00:15
B,10:00:20
```
・material.csv
次のCSVが材料の投入時間を記録したものです。
time列が投入する時間，machine列が投入先の機械です。
```
//material.csv
time,machine
10:00:01,A
10:00:07,A
10:00:09,B
10:00:15,B
10:00:24,B
```

ここで実現したい事がやや複雑なので箇条書します
- machine.csvにresult列を追加する
- machine.csvのtime列とmaterial.csvの各行のtime列を比較し、
- 「material.csvの時間がmachine.csvの時間より後で一番近い時間」
- 且つ「material.csvの時間とmachine.csvの時間が5分以内」
- 且つ「機械の種類が一致する」
ものがあればresult列にmaterial.csvの時間を書き込む
- 条件に合うものがなければNonを代入する
という操作をしたいと思っています。
アウトプットは次のようになります。
```
//RESULT DataFrame
machine,time,result
A 10:00:00 10:00:01
A 10:00:05 10:00:07
A 10:00:10 Non
A 10:00:15 Non
A 10:00:25 Non
B 10:00:05 10:00:09
B 10:00:15 10:00:15
B 10:00:20 10:00:24
```
Forループを物凄い駆使すれば出来なくはないかもしれませんが、ちょっと大変です。
良いテクニックがあればご教示おねがいします。

##試したこと
applyやmapを使って出来ないかと試行錯誤しましたが，applyやmapは２列をサブルーチンに渡すことが出来ないみたいなので(これも間違っていたら済みません)途方にくれてしまいました。

```python
import pandas as pd

# パーサーを定義する
my_parser = lambda x: pd.datetime.strptime(x, '%H:%M:%S')

# ファイルを読み込む
df_mach = pd.read_csv('machine.csv', date_parser=my_parser)
df_mate = pd.read_csv('material.csv', date_parser=my_parser)

def func(valu):
#######
# ここの書き方が分からない
#######
    return ##

df_mach['result'] =  df_mach['time'].map(func)

print(df_mach)
```
結局Forループなどを駆使して複雑な処理をしないと実現できないのでしょうか？

Accepted Answer

DataFrame.apply の axis 引数に 'columns' (または 1) を指定すると、関数には行の Series が渡ってきます。
また、DataFrame の [] には、条件を記述して絞り込み検索することができます。

```Python
import pandas as pd

# パーサーを定義する
my_parser = lambda x: pd.datetime.strptime(x, '%H:%M:%S')

# ファイルを読み込む
df_mach = pd.read_csv('machine.csv', date_parser=my_parser)
df_mate = pd.read_csv('material.csv', date_parser=my_parser)

# 検索用に DateTime 型の列を追加した material を作成する
df_mate_ = df_mate.assign(time_=lambda s: pd.to_datetime(s.time))

def func(row):
    # DateTime 型に変換する
    time_ = pd.to_datetime(row.time)
    # 条件が一致する material を探す
    matches = df_mate_[(df_mate_.machine == row.machine) &
                       (df_mate_.time_ >= time_) &
                       (df_mate_.time_ <= (time_ + pd.tseries.offsets.Minute(5)))]
    # 一致する場合は、一番近い time を返す
    return None if matches.empty else matches.sort_values('time_').time.iloc[0]

df_mach['result'] = df_mach.apply(func, axis='columns')
```

Answer

元のデータでは時刻の計算がやりにくいため、関数の内部でdatetime型に変換してみました。

下記の条件ですが

> - 「material.csvの時間がmachine.csvの時間より後で一番近い時間」

この場合は`B 10:00:15`の出力例が異なると思いますがいかがでしょうか？

```python
import pandas as pd

df_mach = pd.read_csv('machine.csv')
df_mate = pd.read_csv('material.csv')


def func(machine_machine, machine_time, df):
    # 時刻の計算ができるようにdatetime型に変換
    machine_time = pd.to_datetime(machine_time)
    datetime_df = df.copy()
    datetime_df['time'] = pd.to_datetime(datetime_df['time'])

    # 機械名でフィルタ
    machine_df = datetime_df[datetime_df['machine'] == machine_machine].copy()

    # machine.csvより後のデータ
    machine_df = machine_df.loc[machine_df['time'].map(
        lambda x: (x - machine_time).value) > 0]

    # machine.csvより後のデータがなかったらNoneを返す
    if not len(machine_df):
        return None

    # machine.csvより後のデータでmachine.csvの時間差が最も小さいデータ
    min_time = machine_df.loc[machine_df['time'].map(
        lambda x: (x - machine_time).value).idxmin(), 'time']

    # 上記の該当した時間差が5分以内であれば時間差が最も小さいデータを返す
    if (min_time - machine_time).value <= 300000000000:
        return df.loc[datetime_df[datetime_df['time'] == min_time].index[0],
                      'time']
    else:
        return None


df_mach['result'] = df_mach.apply(
    lambda x: func(x['machine'], x['time'], df_mate), axis=1)
```

関連した質問