DBのInterval型カラムをBigQueryに連携して集計したい

前提・実現したいこと

現在AWSのRDSに保存されているInterval型のカラムに保存されているデータをBigQueryに連携して集計を行いたいです。

現状としてはRDSのデータをGlueでS3へ保存し、そのデータをGCPのTransfer ServiceでBigQuery上のデータセットへ登録しています。
BigQuery上の別のデータセット突き合わせて集計する必要があるため事前に集計して連携することは出来ません・・・

発生している問題

まずAWS上のRDSからGlueのジョブでS3へparquetを保存しようとしていますが、GlueではInterval型にマッピング出来ないらしく、stringへ変換するしか選択肢がない。
BigQuery側がInterval型に対応していない

試そうとしていること

GlueのジョブでのPythonスクリプト(PySpark？)上でキャストが出来ないかどうか
最悪BigQuery上でstringをsplit・キャストして計算できないか

何分GlueやPySparkを触り始めたのが最近で知識が追いついていないため、何か良い方法がありましたら知恵を貸して頂きたく。
以上宜しくお願いいたします。

行動規範の内容に同意します

回答2件

自己解決

一旦コストが低い方法として、GlueジョブのPythonスクリプト上で無理やりキャストする方法が上手くいきました。

投稿2020/08/20 10:44

alea

総合スコア8

S3に保存する必要がないなら、バッチ等でembulkを動かしてバルクロードするとかはどうでしょう？

embulk

自分で試してないのでうまくいくかわかりませんが…。

投稿2020/08/18 18:29

yu_1985

総合スコア7445

alea

2020/08/20 10:42

これについては毎回抜いてきたデータを保持しておく必要があるのと、 BigQueryで存在しない型がどう扱われるのかがちょっと未知数ですね・・・・

yu_1985

2020/08/20 11:03

それならcsvで保存されたものをinputにしてバルクロードもアリですね。 csvでの保存とRDSからのバルクロードを分けてもいいですが embulkはある程度そのへんのマッピングを予測してくれるのと、それが間違っていたら手動で編集もできるはずなので、そのへんをうまいことやればできそうな気はします https://qiita.com/suzukihi724/items/b9a14bb31f8aedf54954

行動規範の内容に同意します

あなたの回答