背景
1年に約1.1万件増えていく在庫データがあります(現在3万件近く)。
Airtable、kintoneのようなDBaaSというかデータベースアプリを使って運用していて、APIを叩いたり、帳票機能やビュー切替機能、権限コントロールなどすごく便利で使い倒しています。
私は、Pythonで業務の自動化をするところからキャリアが始まった社内SEで、データベースにそもそもどんな種類のものがあって、一般的にどういう運用がされているものなのかに疎いです。最近SQLの勉強を始めたところです。インフラ周りの知識もないです。
課題
そもそもバックアップをとっていないし、件数が増えたせいか、最近アプリの動作が重く感じるので、全行程が終了したデータというのは別にアプリ内になくてもよいのでどこかに移したいです。
移しても通年の分析に使うのにビッグクエリーやGoogleデータポータル(旧データスタジオ)などに繋げたいとは思っています。
そこで質問
ざっくり聞くと、この場合はどんな運用方法がいいでしょうか?
クラウドストレージにcsvで5000件ずつ吐き出す、5000件ごとにGoogleスプレッドシートに吐き出していく、などでもいいです。
この方向で、というのが分かったら勉強するので、**データアーカイビングってどんなツールを使ってどうやってやるものでしょうか?**というのが知りたいです。
軽くググった感じ、Amazon S3とか使う感じですか??
注意
割と厄介なのかなと思うのが、データベースはみんなが触ってるので例外的な値が珍しくなかったり(基本選択肢が[東京,大阪,名古屋]
だとすると、実際のデータには[東京,大阪,名古屋,東京(横浜),東京(千葉)]
がある)、構造や名称が途中で変わったり(例えばある列のデータが"〇"と"×"
だったのが"到着"と"未着"
にある時期から変更される、列が増えているなど)と、必ずしも構造が一定でなかったりします。Power Queryくらい柔軟であってほしかったり、CSVやエクセルなどのように簡単にデータが入ってほしかったりします。
それから、バックアップとアーカイブは別物だと思うのですが、バックアップはより高いプランに課金すればアプリ内でできるので、どっちかというとアーカイビング・データの退避が主眼です。
回答1件
あなたの回答
tips
プレビュー