順次増えていくcsvファイルの差分のみ前処理してデータベースに格納する方法

工場に設置した設備からとったログcsvファイルを処理しており、そのファイルのデータベース化について教えていただけないでしょうか？

ここまでやったこと

工場のある工程で、1バッチ（1回の製造サイクル）毎に10個のセンサーから各々csvファイルが出てきます。Pandasを利用して、このcsvファイルを複数バッチ分前処理して、1つのDataFrameにまとめるところまでは完了しました。

困っていること

csvファイルは、一つのフォルダに人手でコピーしているのですが、次第に増えてきています。前処理は全csvファイルを読んで行うので、次第に処理が重くなっていきます。

実施したいこと

１、管理上、すべてのcsvファイルは1つのフォルダに保存したい（ファイル名でバッチ番号とセンサ名は識別可能）
２、全バッチ・全センサを統合したDataFrameをSqliteに格納にしたい
３、新しいバッチ分のcsvファイルが格納されたときは、新しいバッチ分だけPandasで前処理し、２に追加したい。

SQLに詳しくないのですが、上の太字部分をどう実現したらいいでしょうか？

今考えている流れ

イメージとして、以下を考えています。
１、ファイル名からバッチ番号とセンサ名を取得
２、SQLを使って、データベースに格納されているバッチ番号とセンサ名を取得
３、１と２を比較し、前処理すべき対象csvを特定
４、対象csvをpandasで処理し、Insertでデータベースに追加

SQLを使ったことがないので、この流れで問題ないでしょうか？
こういう方がよりシンプルにできるよ！などアドバイスいただけたら幸いです。

dodox86

2020/03/26 01:28 編集

新しく発生した未処理のCSVファイルは、すべてバッチ処理対象としてよいのでしょうか。例えばdata01.csv, data02.csvの処理済みファイルがあって、新しくdata03.csv, data04.csvが発生したとき、同じフォルダー内にはdata01.csv～data04.csvの4つのファイルがあることになりますが、data03.csv, data04.csvの2つのファイルはとにかくバッチ処理する、ということでしょうか。もしそうであれば、SQLを使うまでも無い気がしています。

MagMag

2020/03/26 09:41 編集

元データを保管するため、未処理csvファイルはそのままにしており、処理済みの各csvは作っていません。代わりに全データをまとめたDataFrameを作ってcsvにしています（解析するときには１つのDataFrameに乗っけるため）。処理済みcsv保管フォルダを作って、そこに順次格納する方法もあると多いますし、おっしゃる通りSQLをつかなわなくても対応はできるところはあると思っています。ただ、1つのDataFrameにまとめた後はSQLの方が操作が早いかな、という感覚です。