回答編集履歴
2
更にサンプルコードを追加
test
CHANGED
@@ -65,3 +65,119 @@
|
|
65
65
|
ただ、dict型のデータはlist型同様にそのままセルに格納することができますので、``tolist()``せずに、そのままリターンすると良いのではないでしょうか。
|
66
66
|
|
67
67
|
|
68
|
+
|
69
|
+
---
|
70
|
+
|
71
|
+
|
72
|
+
|
73
|
+
【更に追記です】
|
74
|
+
|
75
|
+
|
76
|
+
|
77
|
+
質問に挙げているソースコードですが、複数のデータ('material'データのリスト)を単一のセルに押し込めている部分がどうも気になります。
|
78
|
+
|
79
|
+
個人的には 'material'データ毎に行を分けて格納し、データ処理(取得)時に``groupby()`` でまとめた方が管理しやすいと思います。
|
80
|
+
|
81
|
+
|
82
|
+
|
83
|
+
ということで、簡単にサンプルを書きました。
|
84
|
+
|
85
|
+
|
86
|
+
|
87
|
+
```Python
|
88
|
+
|
89
|
+
from datetime import datetime, date,time,timedelta
|
90
|
+
|
91
|
+
import pandas as pd
|
92
|
+
|
93
|
+
|
94
|
+
|
95
|
+
my_parser = lambda x: pd.datetime.strptime(x, '%H:%M:%S').time()
|
96
|
+
|
97
|
+
|
98
|
+
|
99
|
+
# machine.csv の読み込み('time'を'start_time'にRename / 'end_time'を追加)
|
100
|
+
|
101
|
+
df_mach = pd.read_csv('machine.csv', date_parser=my_parser, parse_dates=['time']).rename(columns={'time':'start_time'})
|
102
|
+
|
103
|
+
df_mach['end_time'] = df_mach.apply(lambda d:datetime.combine(date.today(), d.start_time) + timedelta(seconds=5), axis=1).dt.time
|
104
|
+
|
105
|
+
|
106
|
+
|
107
|
+
# material.csv の読み込み
|
108
|
+
|
109
|
+
df_mate = pd.read_csv('material.csv', date_parser=my_parser, parse_dates=['time'])
|
110
|
+
|
111
|
+
|
112
|
+
|
113
|
+
# machineデータとmaterialデータをマージ(時間範囲外は削除)
|
114
|
+
|
115
|
+
df = df_mach.merge(df_mate, on='machine')
|
116
|
+
|
117
|
+
df = df[(df.start_time<=df.time) & (df.time<=df.end_time)].reset_index(drop=True)
|
118
|
+
|
119
|
+
print(df)
|
120
|
+
|
121
|
+
```
|
122
|
+
|
123
|
+
|
124
|
+
|
125
|
+
やっていることは ``machine.csv``と``material.csv``をマージしただけです。
|
126
|
+
|
127
|
+
(重複削除はしておりません)
|
128
|
+
|
129
|
+
|
130
|
+
|
131
|
+
で、データ取得時に
|
132
|
+
|
133
|
+
|
134
|
+
|
135
|
+
```Python
|
136
|
+
|
137
|
+
grp = df.groupby(['start_time','machine'])
|
138
|
+
|
139
|
+
|
140
|
+
|
141
|
+
# 全グループを取得
|
142
|
+
|
143
|
+
print(grp.groups)
|
144
|
+
|
145
|
+
|
146
|
+
|
147
|
+
# 10:00:20 開始のMachine-Bのデータを取得
|
148
|
+
|
149
|
+
print(grp.get_group((time(10,0,10),'B')))
|
150
|
+
|
151
|
+
|
152
|
+
|
153
|
+
# 上記のデータの materialのリストを取得して重複削除
|
154
|
+
|
155
|
+
print(grp.get_group((time(10,0,20),'B'))['material'].drop_duplicates())
|
156
|
+
|
157
|
+
|
158
|
+
|
159
|
+
# 前回の解答と同等のデータフレームを作成
|
160
|
+
|
161
|
+
print(grp.apply(lambda d: d['material'].drop_duplicates().tolist()))
|
162
|
+
|
163
|
+
|
164
|
+
|
165
|
+
# 全グループのデータをループ処理
|
166
|
+
|
167
|
+
for key, data in grp:
|
168
|
+
|
169
|
+
print(key)
|
170
|
+
|
171
|
+
print(data['material'].drop_duplicates())
|
172
|
+
|
173
|
+
```
|
174
|
+
|
175
|
+
|
176
|
+
|
177
|
+
と様々な処理をする事ができます。
|
178
|
+
|
179
|
+
|
180
|
+
|
181
|
+
|
182
|
+
|
183
|
+
|
1
追加の質問に関する答えを追加
test
CHANGED
@@ -27,3 +27,41 @@
|
|
27
27
|
|
28
28
|
|
29
29
|
のように修正して、**リスト型**のデータを戻すようにすると良いのではないでしょうか。
|
30
|
+
|
31
|
+
|
32
|
+
|
33
|
+
---
|
34
|
+
|
35
|
+
|
36
|
+
|
37
|
+
**【追加質問に関して】**
|
38
|
+
|
39
|
+
|
40
|
+
|
41
|
+
質問のコードでは
|
42
|
+
|
43
|
+
|
44
|
+
|
45
|
+
```Python
|
46
|
+
|
47
|
+
use_m = matches.drop_duplicates(['material'])['material']
|
48
|
+
|
49
|
+
```
|
50
|
+
|
51
|
+
と``use_m``に Pandas.Seriesデータが入っているのですが、
|
52
|
+
|
53
|
+
``apply()`` のリターン値はそのままセルに格納されますので、リターンにて そのままの Seriesデータを返すとエラーとなってしまいます。(前回の質問)
|
54
|
+
|
55
|
+
そこで、``Pandas.Series.tolist()`` にてSeriesデータをlist型のデータに変換することで問題を回避しております。(前回の解答)
|
56
|
+
|
57
|
+
|
58
|
+
|
59
|
+
しかしながら、実際のコードでは ``use_m`` にdict型のデータが格納されているようです(原因はわかりませんが・・)。
|
60
|
+
|
61
|
+
dict型のデータには、当然 list型にデータ変換を行う ``tolist()`` メソッドが存在しませんので、ここでエラーとなっております。
|
62
|
+
|
63
|
+
|
64
|
+
|
65
|
+
ただ、dict型のデータはlist型同様にそのままセルに格納することができますので、``tolist()``せずに、そのままリターンすると良いのではないでしょうか。
|
66
|
+
|
67
|
+
|