回答編集履歴

2

更にサンプルコードを追加

2017/05/24 07:08

投稿

magichan
magichan

スコア15898

test CHANGED
@@ -65,3 +65,119 @@
65
65
  ただ、dict型のデータはlist型同様にそのままセルに格納することができますので、``tolist()``せずに、そのままリターンすると良いのではないでしょうか。
66
66
 
67
67
 
68
+
69
+ ---
70
+
71
+
72
+
73
+ 【更に追記です】
74
+
75
+
76
+
77
+ 質問に挙げているソースコードですが、複数のデータ('material'データのリスト)を単一のセルに押し込めている部分がどうも気になります。
78
+
79
+ 個人的には 'material'データ毎に行を分けて格納し、データ処理(取得)時に``groupby()`` でまとめた方が管理しやすいと思います。
80
+
81
+
82
+
83
+ ということで、簡単にサンプルを書きました。
84
+
85
+
86
+
87
+ ```Python
88
+
89
+ from datetime import datetime, date,time,timedelta
90
+
91
+ import pandas as pd
92
+
93
+
94
+
95
+ my_parser = lambda x: pd.datetime.strptime(x, '%H:%M:%S').time()
96
+
97
+
98
+
99
+ # machine.csv の読み込み('time'を'start_time'にRename / 'end_time'を追加)
100
+
101
+ df_mach = pd.read_csv('machine.csv', date_parser=my_parser, parse_dates=['time']).rename(columns={'time':'start_time'})
102
+
103
+ df_mach['end_time'] = df_mach.apply(lambda d:datetime.combine(date.today(), d.start_time) + timedelta(seconds=5), axis=1).dt.time
104
+
105
+
106
+
107
+ # material.csv の読み込み
108
+
109
+ df_mate = pd.read_csv('material.csv', date_parser=my_parser, parse_dates=['time'])
110
+
111
+
112
+
113
+ # machineデータとmaterialデータをマージ(時間範囲外は削除)
114
+
115
+ df = df_mach.merge(df_mate, on='machine')
116
+
117
+ df = df[(df.start_time<=df.time) & (df.time<=df.end_time)].reset_index(drop=True)
118
+
119
+ print(df)
120
+
121
+ ```
122
+
123
+
124
+
125
+ やっていることは ``machine.csv``と``material.csv``をマージしただけです。
126
+
127
+ (重複削除はしておりません)
128
+
129
+
130
+
131
+ で、データ取得時に
132
+
133
+
134
+
135
+ ```Python
136
+
137
+ grp = df.groupby(['start_time','machine'])
138
+
139
+
140
+
141
+ # 全グループを取得
142
+
143
+ print(grp.groups)
144
+
145
+
146
+
147
+ # 10:00:20 開始のMachine-Bのデータを取得
148
+
149
+ print(grp.get_group((time(10,0,10),'B')))
150
+
151
+
152
+
153
+ # 上記のデータの materialのリストを取得して重複削除
154
+
155
+ print(grp.get_group((time(10,0,20),'B'))['material'].drop_duplicates())
156
+
157
+
158
+
159
+ # 前回の解答と同等のデータフレームを作成
160
+
161
+ print(grp.apply(lambda d: d['material'].drop_duplicates().tolist()))
162
+
163
+
164
+
165
+ # 全グループのデータをループ処理
166
+
167
+ for key, data in grp:
168
+
169
+ print(key)
170
+
171
+ print(data['material'].drop_duplicates())
172
+
173
+ ```
174
+
175
+
176
+
177
+ と様々な処理をする事ができます。
178
+
179
+
180
+
181
+
182
+
183
+

1

追加の質問に関する答えを追加

2017/05/24 07:08

投稿

magichan
magichan

スコア15898

test CHANGED
@@ -27,3 +27,41 @@
27
27
 
28
28
 
29
29
  のように修正して、**リスト型**のデータを戻すようにすると良いのではないでしょうか。
30
+
31
+
32
+
33
+ ---
34
+
35
+
36
+
37
+ **【追加質問に関して】**
38
+
39
+
40
+
41
+ 質問のコードでは
42
+
43
+
44
+
45
+ ```Python
46
+
47
+ use_m = matches.drop_duplicates(['material'])['material']
48
+
49
+ ```
50
+
51
+ と``use_m``に Pandas.Seriesデータが入っているのですが、
52
+
53
+ ``apply()`` のリターン値はそのままセルに格納されますので、リターンにて そのままの Seriesデータを返すとエラーとなってしまいます。(前回の質問)
54
+
55
+ そこで、``Pandas.Series.tolist()`` にてSeriesデータをlist型のデータに変換することで問題を回避しております。(前回の解答)
56
+
57
+
58
+
59
+ しかしながら、実際のコードでは ``use_m`` にdict型のデータが格納されているようです(原因はわかりませんが・・)。
60
+
61
+ dict型のデータには、当然 list型にデータ変換を行う ``tolist()`` メソッドが存在しませんので、ここでエラーとなっております。
62
+
63
+
64
+
65
+ ただ、dict型のデータはlist型同様にそのままセルに格納することができますので、``tolist()``せずに、そのままリターンすると良いのではないでしょうか。
66
+
67
+