時系列データで、時間の歯抜けと欠損のあるデータ

Question

### 前提・実現したいこと

時系列で、１時間ごとに以下のような形式でデータの入っているものがあります。


datetime               on_off
2020-05-31 11:31                                      　　　　　　　　　  00000000000000000000000000000
2020-05-31 12:00       000000000000000000000000000000000000000000000000000000000000
2020-06-01 13:00       111111000100000111100000000000000000000000000000000000000000
2020-06-03 14:18                         　　　　　  000000000000000000000000000000000000000000
2020-06-05 15:00       000000000000000000000000000000000000000000000000000000000000
2020-06-06 03:00       000000000000000000000000000000000000000000000000000000000000

前提条件として、
・欠損している箇所には空白もNaNも入っておらず、値として入ってるのは数字が始まる部分から
・「on／off」データは一行に60個あるのが正常なもの
・datetimeで「11:31」のように途中から始まってる場合は[on/off]列は31分から始まるので29個値が並ぶ

出したい形としては、

2020-04-13 11:31:00    0
2020-04-13 11:32:00    0
2020-04-13 11:33:00    0
2020-04-13 11:34:00    0
[省略]
2020-04-13 11:59:00    0

のように毎分１レコードのように対応させたいのです。


### 該当のソースコード

```python
start_at, end_at = df.datetime.min(), df.datetime.max()
res = df.reindex(pd.date_range(start_at, end_at, freq="T"))
```
で、まず分毎のデータを作成し、
```python
df["on_off"].str.split('')
list_split =[[a for a in y if a != '']for y in y]
```
でリスト化して結合することで対応しようとしたのですが、日にち自体も歯抜けしている為に二つの数が合わず、
結合ができませんでした。

このようなデータに対してアプローチ自体が間違えてるのでしょうか・・・。
何卒よろしくお願いします。

### 補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

Accepted Answer

基本的なpandasのコードで実装しました。
そのままコピペして頂ければ動きます。
```python
# 各種インポート
import pandas as pd, numpy as np
from datetime import datetime
import datetime
import itertools
```

```python
# データフレームの作成
a = ['2020-05-31 11:31', '2020-05-31 12:00', '2020-06-01 13:00', '2020-06-03 14:18', '2020-06-05 15:00', '2020-06-06 03:00']
b = ['00000000000000000000000000000', '000000000000000000000000000000000000000000000000000000000000', '111111000100000111100000000000000000000000000000000000000000',
     '000000000000000000000000000000000000000000', '000000000000000000000000000000000000000000000000000000000000', '000000000000000000000000000000000000000000000000000000000000']
c = {"datetime": a, "on_off": b}
df = pd.DataFrame.from_dict(c)
```

```python
# datetimeのデータ型をdatetime型に変更
df.datetime = pd.to_datetime(df['datetime'])
```

```python
# データフレームの確認
df
```

```python
# 必要な時刻のインデックスを持つ、空のテーブルを作成します
data = pd.DataFrame(columns=['on_off']) # 空のデータフレームを作成
for i in range(len(df)): # データフレームを1行ずつ取り出します
    start_at = df.loc[i].datetime # datetimeの値をそのままstart_atにします
    end_at = df.loc[i].datetime + datetime.timedelta(minutes=len(df.loc[i].on_off)-1) # on_offに含まれている文字数-1分をstart_atに加算してend_atとします
    res = df.reindex(pd.date_range(start_at, end_at, freq="T")) # 例えば1列目だと、start_atが11:31:00、end_atが11:59:00となる
    res = res.drop(columns='datetime')
    data = data.append(res) # 空のデータフレームに作成したテーブルを追加する
```

```python
# on_offの文字列を取り出していきます
lis = [] # 空のリストを作成します
for i in range(len(df)):
    lis.append(list(df.on_off.loc[i])) # list(文字列)とするとバラバラにできます
lis = list(itertools.chain.from_iterable(lis)) # 2次元のリストをitertoolsを使って1次元のリストに変換します
print(lis)
```

```python
# 作成したdataとlisを組み合わせます
data.on_off = lis
```

```python
# dataを確認します。これで必要なテーブルが手に入りました。
data
```

Answer

スマートな回答ではないですが、行ごとにループして作成するのはどうでしょうか。
```python
import pandas as pd
from io import StringIO

# 設問のDataFrameを用意
input_str = """
datetime               on_off
2020-05-31T11:31                                      00000000000000000000000000000
2020-05-31T12:00       000000000000000000000000000000000000000000000000000000000000
2020-06-01T13:00       111111000100000111100000000000000000000000000000000000000000
2020-06-03T14:18                         000000000000000000000000000000000000000000
2020-06-05T15:00       000000000000000000000000000000000000000000000000000000000000
2020-06-06T03:00       000000000000000000000000000000000000000000000000000000000000
"""
df = pd.read_csv(StringIO(input_str), delim_whitespace=True)


res = pd.DataFrame({"on_off": []})
for i, row in df.iterrows():
    data = list(row["on_off"])
    index = pd.date_range(start=row["datetime"], periods=len(data), freq="60s")
    df_part = pd.DataFrame({"on_off": data}, index=index)
    res = pd.concat([res, df_part])

# 間の時間をNaNで埋めたい場合、リサンプリングする(しない場合は不要)
res = res.resample("60s").asfreq()
```

前提・実現したいこと

該当のソースコード

補足情報（FW/ツールのバージョンなど）

関連した質問