複数ファイルデータをembulkでバルクインサート

oracleDBのデータ（1000万レコード分）をcsvファイルにして、embulkでBigQueryへバルクインサート処理をしています

100万レコード分のcsvファイルを10ファイル用意して、embulkでBigqueryへバルクインサートするのですが、可能であれば並列処理でバルクインサートしたいです。

実現可能であれば、並列処理方法を教えて頂きたいです。

2018/11/27 02:59

「embulk 並列実行」で検索すれば方法はHITします。その上での質問であればもっと具体的に

2018/11/28 23:54

ご指摘有難うございます。正常に処理が実行できました

行動規範の内容に同意します

回答1件

ベストアンサー

in:
  type: file
  path_prefix: /path/to/oracle/data # 01 ... 10
  # ..

というファイルを読み込みすれば勝手に並列化されます。
並列数を明示的に指定する場合はmax_threadsを指定してください。

100万エントリを10個同時に読み込みした場合、10個のテーブルをUnionするので、
-cオプションを使って複数回に分けてインサートした方が良いかもしれません。

oracleからデータを取得して10個のファイルに分割するのであれば、oracleからデータを
読み込んでそのままBigqueryに入れた方が速いかもしれません。

投稿2018/11/28 12:01

総合スコア415

2018/11/28 23:54

ご回答有難うございます。正常に処理が実行されました

2018/11/29 00:05

＞エントリを10個同時に読み込みした場合、10個のテーブルをUnionするので embulkが指定の内容からテーブルを識別してunionするんですか？先ず非効率だし、そんな面倒な事しないと思うんですが、宜しければ文献をお願いします。

2018/11/29 00:29

saziさんご指摘ありがとうございます。すいません。output-oracleと間違えました。Unionするのでというところは間違いです。無視してください。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問