前提・実現したいこと
現在AWSのRDSに保存されているInterval型のカラムに保存されているデータをBigQueryに連携して集計を行いたいです。
現状としてはRDSのデータをGlueでS3へ保存し、そのデータをGCPのTransfer ServiceでBigQuery上のデータセットへ登録しています。
BigQuery上の別のデータセット突き合わせて集計する必要があるため事前に集計して連携することは出来ません・・・
発生している問題
- まずAWS上のRDSからGlueのジョブでS3へparquetを保存しようとしていますが、GlueではInterval型にマッピング出来ないらしく、stringへ変換するしか選択肢がない。
- BigQuery側がInterval型に対応していない
試そうとしていること
- GlueのジョブでのPythonスクリプト(PySpark?)上でキャストが出来ないかどうか
- 最悪BigQuery上でstringをsplit・キャストして計算できないか
何分GlueやPySparkを触り始めたのが最近で知識が追いついていないため、何か良い方法がありましたら知恵を貸して頂きたく。
以上宜しくお願いいたします。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。