前提・実現したいこと
あるサイトをクローリング・スクレイピングするのに、画像とその関連する内容を取得して、ストレージもしくはデータベースに保存したいとする。
このとき、テキストデータはデータベースに挿入すればいいが、
それと関係する画像はblob型で同じデータベースのレコードに挿入するべきか、それとも、
データベースにpath付きカラムを追加して、画像などの外部ファイルはストレージに別途保存するべきか、
という2つのパターンがある。
そして、これは外部ファイルとデータベースのレコードの内容がトランザクション的に処理されるかどうか悩ましい問題であり、
同時に、テキスト以外のデータをクローリングするときの共通問題である。
ここに、すでにいくつか文献を上げると、
「blob型でデータベースにファイルを保存する場合の注意点」として、
https://teratail.com/questions/81233
https://qiita.com/kzhr/items/aaad744f8e06abc16949
http://bluerabbit.hatenablog.com/entry/2015/03/29/214639
があり、
一方、外部ファイルをデータベースに挿入しない方法としては、
プログラム側でトランザクション的なファイル操作を実装する方法で、
https://colo-ri.jp/develop/2010/03/mysql.html
http://blog.flup.jp/2008/02/18/work_together_with_transaction_and_file_operation2/
のようです。そして、どちらの方法を取るべきかは要件と自分の能力次第ですが、
自分の能力として、今後、画像をデータベースとは独立して使う可能性もあるし、
一方で、データベースに突っ込んだままの方がよい可能性もあるしで、
正直判断がついていません。
そうなれば、将来的にデータベース負荷の大きくなりそうな、画像をデータベースのレコードに挿入する方法をやらない場合、
自分でプログラミング上でトランザクション的なファイル処理を実装する必要があります。
しかし、文献ほどのスキルはありません。
一方で、python3を使用しており、それ用のライブラリがあるか探したところ、
https://transaction.readthedocs.io/en/latest/
https://github.com/nilp0inter/acidfile
が見つかりました。
そして、そもそも、データベースにおけるトランザクションとはどのように実装されているのかを調べると、(wal機能)「write ahead log」という機能により、万一、停電などにより異常終了しても、ログに書き出されたら、次回は必ずクエリが実行されて更新処理が正常に行われるようです。
これをプログラミング上で実装する必要があります。
要するに、データベースに画像を挿入しないなら、wal機能を自力で実装すればいい話ですが、そう簡単ではない事は明白であり(それは既存のDBソフトを開発する事になるから)、そのような事をファイル操作で実現する方法やツールを知っていましたら、
教えてください。
逆に、データベースに画像を挿入する方法を選ぶ場合、どれくらいの画像データや1テーブルあたりのレコード数、並びにアクセス頻度なら、実用的で重い処理にならないと判断できますでしょうか?
補足情報(FW/ツールのバージョンなど)
python3
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。