フォルダ内のファイルを、ファイル名のルールに従ってグループ分けしたい

Question

### 前提・実現したいこと
　pythonで、実行ファイル直下のフォルダ(たとえば、csvdata)に入れているcsvデータを読み取って、
一定のルールでグループ分けしてlistやdictに格納したいと考えています。
（ファイル名のフォーマット）識別子1_id_適当な番号_日付(yymmdd)_時間(hhmmss).csv
　　→これを、日付が同じで、時間が5分未満の差のものを一つのグループに分けて保存したい。
　　(例)  aaa_1_1_20190302_110504.csv
         aab_3_5_20190302_110911.csv
         acb_2_4_20190302_111003.csv
         cbz_2_6_20190303_111004.csv

とあった場合、1番目と2番目、3番目で一つのグループ、4番目で一つのグループ、
のような形で分けたいと考えています。グループは、連番でもいいと思っているので、
たとえば、{1:[aaa_1_1_20190302_110504.csv, aab_3_5_20190302_110911.csv, acb_2_4_20190302_111003.csv],
          2:[cbz_2_6_20190303_111004.csv]}
のような形に分けられたら良いと思っています。

### 発生している問題・エラーメッセージ
pathlibを使って、フォルダ全体を取得し、splitで分解するところまでは作れたのですが、
以下2点について伺いたく思います。

①条件に合うものをリストに入れることはできたのですが、これをグループ分け（別のリストもしくは辞書）
する方法が分かりません。(辞書の中にリストを入れる？）
②下記のコードでやっている方法はいまいちスマートではないような気がしますので、もしほかに良い方法などありましたら
ご教示いただければ幸いです。

### 該当のソースコード

```python
import pathlib
import glob
import pprint

p_temp = pathlib.Path("csvdata")
pprint.pprint(list(p_temp.glob('*.csv')))

csvs = p_temp.glob('*.csv')
lst_csvs = []
dict_csvs = {}
group_no = 1
temp_ymd, temp_time = None, None

for i in csvs:
    _, id, pos, _, ymd, time = str(i).split('_')[:]
    print(pos, ymd, time[0:7])
    
    if( (temp_ymd == ymd) and (abs(temp_time - int(time[0:7]))<5000 )):
        lst_csvs.append(str(i))
    else:
        temp_ymd, temp_time = ymd, int(time[0:7])
        print(temp_ymd, temp_time)

print(lst_csvs)
```

### 試したこと
関連ライブラリの情報を検索した。
jupyterでサンプルコードを作って試行錯誤した。

Accepted Answer

1. ファイル名から日時部分を正規表現で抽出し、datetime オブジェクトを作る。
2. pandas の DataFrame に変換し、5分単位でグループ化する。
3. groupby オブジェクトから必要な情報をとりだし、以下の結果を得る。
```
[[日時, ファイルパスのリスト],
 [日時, ファイルパスのリスト],
 ...
]
```

```python
import glob
import os
import re
from datetime import datetime
import pandas as pd

dts, paths = [], []

for path in glob.glob('test/*.csv'):
    # ファイル名から必要な部分を正規表現で探して、datetime 型を作成する。
    basename = os.path.basename(path)
    match = re.search('(\d{4})(\d{2})(\d{2})_(\d{2})(\d{2})(\d{2}).csv', basename)
    if not match:
        print('not match', path)
        continue
    dt = datetime(*map(int, match.groups()))
    
    dts.append(dt)
    paths.append(path)

# データフレームに変換
df = pd.DataFrame(paths, columns=['path'], index=dts)
```

|                     | path                             |
|---------------------|----------------------------------|
| 2019-03-02 11:05:04 | test\aaa_1_1_20190302_110504.csv |
| 2019-03-02 11:09:11 | test\aab_3_5_20190302_110911.csv |
| 2019-03-02 11:10:03 | test\acb_2_4_20190302_111003.csv |
| 2019-03-03 11:10:04 | test\cbz_2_6_20190303_111004.csv |

```python
#  5分単位でグループ化
grouped_by_dt = df.resample('5min')['path']

result = []
for dt, path in grouped_by_dt:
    if not path.empty:
        result.append([dt.to_pydatetime(), path.tolist()])

from pprint import pprint
pprint(result)
```

```
[[datetime.datetime(2019, 3, 2, 11, 5),
  ['test\aaa_1_1_20190302_110504.csv', 'test\aab_3_5_20190302_110911.csv']],
 [datetime.datetime(2019, 3, 2, 11, 10), ['test\acb_2_4_20190302_111003.csv']],
 [datetime.datetime(2019, 3, 3, 11, 10), ['test\cbz_2_6_20190303_111004.csv']]]

```

## 追記

> 「dt = datetime(*map(int, match.groups()))」の部分は同いう意味なのでしょうか。

理解するのに必要な項目

1. 正規表現のグループ化と re.search()、その返り値の Match オブジェクトの使い方
[re --- 正規表現操作 — Python 3.7.2 ドキュメント](https://docs.python.org/ja/3/library/re.html)
2. map() の使い方
[Python の mapと filter ってなに？ | Mastering Python](https://python.ms/type/for/map-filter/#_1-map)                         
3. `*` でタプル展開して、タプルの各要素を関数の引数としてわたす。
[Pythonで関数の引数にリスト、タプル、辞書を展開して渡す | note.nkmk.me](https://note.nkmk.me/python-argument-expand/)
4. datetime.datetime オブジェクトのコンストラクタ引数
[datetime --- 基本的な日付型および時間型 — Python 3.7.2 ドキュメント](https://docs.python.org/ja/3/library/datetime.html#datetime.datetime)

```
class datetime.datetime(year, month, day, hour, minute, second)
```

その部分をわかりやすくしたコード

```python
import re
from datetime import datetime

filename = 'aaa_1_1_20190302_110504.csv'
match = re.search('(\d{4})(\d{2})(\d{2})_(\d{2})(\d{2})(\d{2}).csv', filename)

# 1. groups() で正規表現においてグループ化した部分の値をタプルで取得できる。
print(match.groups())  # ('2019', '03', '02', '11', '05', '04')

# 2. タプルの各値が str なので、map() で int に変換する。
args = tuple(map(int, match.groups()))
print(args)  # (2019, 3, 2, 11, 5, 4)

# datetime.datetime クラスのコンストラクタに以下のように引数をわたしてもよいが、、、
year, month, day, hour, minutes, second = args
dt = datetime(year, month, day, hour, minutes, second)
print(dt)  # 2019-03-02 11:05:04

# 3,4. タプル展開を利用するときれいにかける。
# datetime.datetime オブジェクトの位置引数の順序が year, month, day, hour, minute, second なので、タプルの0番目の要素は year、タプルの1番目の要素は month、... と渡してくれる。
dt = datetime(*args)
```

	path
2019-03-02 11:05:04	test\aaa_1_1_20190302_110504.csv
2019-03-02 11:09:11	test\aab_3_5_20190302_110911.csv
2019-03-02 11:10:03	test\acb_2_4_20190302_111003.csv
2019-03-03 11:10:04	test\cbz_2_6_20190303_111004.csv