質問編集履歴

スクレイピング後のデータの保存方法

2018/08/26 04:46

投稿

スコア6

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -174,6 +174,54 @@
+##最終的な処理
+https://example.com/specify_urlから特定テキストをparse処理し、
+json形式(というよりdict形式)にして、info_dataに格納します。
+info_dataは、title,(何かのidなど),image_url,image_big_urlです。
+これを画像特有の処理を行い、最終的には以下のkeyを持つitemクラスのインスタンスを生成します。
+・特定テキストの取得時刻
+・title
+・(何かのidなど)
+・image_url
+・image_hash
+・image_blob
+・image_filename
+・image_big_url
+・image_big_hash
+・image_big_blob
+・image_big_filename
+そして、csvかdbに保存するつもりです。
 ### 補足情報（FW/ツールのバージョンなど）

画像操作についての要望が不足していたので追加

2018/08/26 04:46

投稿

スコア6

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -124,6 +124,54 @@
+特定のurlから複数の画像urlが取得可能であり、画像特有の処理があるため、
+画像には特別に別のクラスを導入するべきかと思います。
+しかし、callback先にImageItemクラスを生成して、
+画像特有の処理をする際に、画像ファイル名に、callback元の変数値(例えばtitle)を利用するので、どのような処理をすればよいかわかりません。
+ただし、画像特有の処理と言っても、
+ある1つの特定urlに対して、複数の画像が存在しても、
+それらは異なるタグ(image_url,image_big_url)のようなもので、
+最終的な保存のときの、Itemクラスでのkey名は、
+・image_url
+・image_hash
+・image_blob
+・image_filename
+・image_big_url
+・image_big_hash
+・image_big_blob
+・image_big_filename
+のような区別を行うため、
+callback先でyieldによる保存を行うにしても、このようなkey名の変更に対応できるようなcallback関数の呼び出し方が必要です。
+となると、素直にcallbackせずに、self.parse内に希望の画像特有の処理を入れるべきかなと悩んでます。
 ### 補足情報（FW/ツールのバージョンなど）