質問編集履歴

2

スクレイピング後のデータの保存方法

2018/08/26 04:46

投稿

youme23
youme23

スコア6

test CHANGED
File without changes
test CHANGED
@@ -174,6 +174,54 @@
174
174
 
175
175
 
176
176
 
177
+ ##最終的な処理
178
+
179
+
180
+
181
+ https://example.com/specify_urlから特定テキストをparse処理し、
182
+
183
+ json形式(というよりdict形式)にして、info_dataに格納します。
184
+
185
+ info_dataは、title,(何かのidなど),image_url,image_big_urlです。
186
+
187
+
188
+
189
+ これを画像特有の処理を行い、最終的には以下のkeyを持つitemクラスのインスタンスを生成します。
190
+
191
+
192
+
193
+ ・特定テキストの取得時刻
194
+
195
+ ・title
196
+
197
+ ・(何かのidなど)
198
+
199
+
200
+
201
+ ・image_url
202
+
203
+ ・image_hash
204
+
205
+ ・image_blob
206
+
207
+ ・image_filename
208
+
209
+
210
+
211
+ ・image_big_url
212
+
213
+ ・image_big_hash
214
+
215
+ ・image_big_blob
216
+
217
+ ・image_big_filename
218
+
219
+
220
+
221
+ そして、csvかdbに保存するつもりです。
222
+
223
+
224
+
177
225
  ### 補足情報(FW/ツールのバージョンなど)
178
226
 
179
227
 

1

画像操作についての要望が不足していたので追加

2018/08/26 04:46

投稿

youme23
youme23

スコア6

test CHANGED
File without changes
test CHANGED
@@ -124,6 +124,54 @@
124
124
 
125
125
 
126
126
 
127
+ 特定のurlから複数の画像urlが取得可能であり、画像特有の処理があるため、
128
+
129
+ 画像には特別に別のクラスを導入するべきかと思います。
130
+
131
+ しかし、callback先にImageItemクラスを生成して、
132
+
133
+ 画像特有の処理をする際に、画像ファイル名に、callback元の変数値(例えばtitle)を利用するので、どのような処理をすればよいかわかりません。
134
+
135
+
136
+
137
+ ただし、画像特有の処理と言っても、
138
+
139
+ ある1つの特定urlに対して、複数の画像が存在しても、
140
+
141
+ それらは異なるタグ(image_url,image_big_url)のようなもので、
142
+
143
+ 最終的な保存のときの、Itemクラスでのkey名は、
144
+
145
+ ・image_url
146
+
147
+ ・image_hash
148
+
149
+ ・image_blob
150
+
151
+ ・image_filename
152
+
153
+
154
+
155
+ ・image_big_url
156
+
157
+ ・image_big_hash
158
+
159
+ ・image_big_blob
160
+
161
+ ・image_big_filename
162
+
163
+
164
+
165
+ のような区別を行うため、
166
+
167
+ callback先でyieldによる保存を行うにしても、このようなkey名の変更に対応できるようなcallback関数の呼び出し方が必要です。
168
+
169
+
170
+
171
+ となると、素直にcallbackせずに、self.parse内に希望の画像特有の処理を入れるべきかなと悩んでます。
172
+
173
+
174
+
127
175
 
128
176
 
129
177
  ### 補足情報(FW/ツールのバージョンなど)