質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
ストレージ

ストレージとは、データを長期で保管・保存しておくための記憶装置。ハードディスクやDVD、CDなどが主なストレージとして挙げられます。PCでは作成データの他、OSやアプリケーションがインストールされています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

トランザクション

トランザクションとは、関連・依存する処理を一連の不可分な処理単位として扱う処理方式を指します。トランザクションとして管理された処理は「すべて成功」か「すべて失敗」のいずれかであることが保証される。処理に失敗した場合は、一連の処理がロールバックされます。

Q&A

1回答

3110閲覧

DB以外のトランザクション的処理

chida_455

総合スコア6

ストレージ

ストレージとは、データを長期で保管・保存しておくための記憶装置。ハードディスクやDVD、CDなどが主なストレージとして挙げられます。PCでは作成データの他、OSやアプリケーションがインストールされています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

トランザクション

トランザクションとは、関連・依存する処理を一連の不可分な処理単位として扱う処理方式を指します。トランザクションとして管理された処理は「すべて成功」か「すべて失敗」のいずれかであることが保証される。処理に失敗した場合は、一連の処理がロールバックされます。

0グッド

1クリップ

投稿2018/08/13 15:56

編集2018/08/13 16:01

前提・実現したいこと

あるサイトをクローリング・スクレイピングするのに、画像とその関連する内容を取得して、ストレージもしくはデータベースに保存したいとする。

このとき、テキストデータはデータベースに挿入すればいいが、
それと関係する画像はblob型で同じデータベースのレコードに挿入するべきか、それとも、
データベースにpath付きカラムを追加して、画像などの外部ファイルはストレージに別途保存するべきか、
という2つのパターンがある。
そして、これは外部ファイルとデータベースのレコードの内容がトランザクション的に処理されるかどうか悩ましい問題であり、
同時に、テキスト以外のデータをクローリングするときの共通問題である。

ここに、すでにいくつか文献を上げると、

「blob型でデータベースにファイルを保存する場合の注意点」として、

https://teratail.com/questions/81233
https://qiita.com/kzhr/items/aaad744f8e06abc16949
http://bluerabbit.hatenablog.com/entry/2015/03/29/214639

があり、
一方、外部ファイルをデータベースに挿入しない方法としては、
プログラム側でトランザクション的なファイル操作を実装する方法で、

https://colo-ri.jp/develop/2010/03/mysql.html
http://blog.flup.jp/2008/02/18/work_together_with_transaction_and_file_operation2/

のようです。そして、どちらの方法を取るべきかは要件と自分の能力次第ですが、
自分の能力として、今後、画像をデータベースとは独立して使う可能性もあるし、
一方で、データベースに突っ込んだままの方がよい可能性もあるしで、
正直判断がついていません。

そうなれば、将来的にデータベース負荷の大きくなりそうな、画像をデータベースのレコードに挿入する方法をやらない場合、
自分でプログラミング上でトランザクション的なファイル処理を実装する必要があります。
しかし、文献ほどのスキルはありません。
一方で、python3を使用しており、それ用のライブラリがあるか探したところ、

https://transaction.readthedocs.io/en/latest/
https://github.com/nilp0inter/acidfile

が見つかりました。

そして、そもそも、データベースにおけるトランザクションとはどのように実装されているのかを調べると、(wal機能)「write ahead log」という機能により、万一、停電などにより異常終了しても、ログに書き出されたら、次回は必ずクエリが実行されて更新処理が正常に行われるようです。
これをプログラミング上で実装する必要があります。

要するに、データベースに画像を挿入しないなら、wal機能を自力で実装すればいい話ですが、そう簡単ではない事は明白であり(それは既存のDBソフトを開発する事になるから)、そのような事をファイル操作で実現する方法やツールを知っていましたら、
教えてください。

逆に、データベースに画像を挿入する方法を選ぶ場合、どれくらいの画像データや1テーブルあたりのレコード数、並びにアクセス頻度なら、実用的で重い処理にならないと判断できますでしょうか?

補足情報(FW/ツールのバージョンなど)

python3

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

一般的なデータベースにはトランザクションが大事ですが、今やろうとしているスクレイピングした内容にそれほどの機能が必要でしょうか?

多めに書き込んでしまうと整合性に苦労しますが、不測の事態にはデータを落としてしまえば良いように思いました。

データベースへの書き込みを緻密に処理するより、スクレイピングを再度実施したほうが実装的には簡単になります。 

トランザクション処理するコードを自分で書きたいという目的であれば、この回答ではお役に立てませんが。

投稿2018/08/14 11:57

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問