質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.34%

  • Java

    14471questions

    Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

  • Oracle Database

    100questions

    Oracle Databaseは、米オラクルが開発・販売を行うリレーショナルデータベース管理システムです。

  • BigQuery

    64questions

    BigQueryは、Google Cloud Platformが提供しているビッグデータ解析サービス。数TB(テラバイト)またはPB(ペタバイト)の膨大なデータに対し、SQL風のクエリを実行し、高速で集計・分析を行うサービスです。

  • Embulk

    18questions

    Embulkは、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができる、プラグインベースのバルクデータローダーです。

Embulkの仕様として、並行で増分バルクインサート可能か?

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 75

raccoondog

score 13

<目的>
OracleDBのテーブルへレコードがインサートされる度に、BigQueryへバルクインサートさせたい

<現状の処理>
OracleDBのテーブルへインサートされる動作

1.不定期にデータのインサート処理が実行される
2.並列(複数トラン)でインサート処理が実行される場合もある
3.1トランで最大1万レコード

<検証方法>
1.環境
Win7
embulk-0.9.8.bat
embulk-input-oracle-0.9.3.gem
embulk-output-bigquery-0.4.9.gem
Oracle12c
BigQuery

2.疑似業務処理は、Oracleプロシージャで、10000レコードインサートしたらコミットし3分間スリープさせる処理をループさせる

3.Oracleのトリガーでインサート処理がコミットされたらスケジュールジョブを起動し、スケジュールジョブの中でembulkを実行させる

4.embulkは-cオプションを使って、増分バルクインサートにしている
embulk-0.9.8.bat run config_bq.yml.liquid -c diff.yml

5.疑似業務処理を1多重で実行すると期待通りの動作になる
(Oracle側へインサートされるレコード数 = BigQuer側yへインサートされるレコード数)

6.疑似業務処理を2多重で実行すると動作が不安定になる
(Oracle側へインサートされるレコード数 ≠ BigQuer側yへインサートされるレコード数)

<確認したい事>

Embulkの仕様として、並行で増分バルクインサート可能か?

※定義

※※trigger※※

create or replace trigger embulk_tr

after insert on INPUT_TEST for each row

DECLARE 
    pragma autonomous_transaction;
    L_SEQ_Embulk_Test NUMBER;
begin

    dbms_output.put_line('-------------------------');
    dbms_output.put_line('OracleDB to BigQuery Bulk Insert Start');

    SELECT SEQ_Embulk_Test.NEXTVAL INTO L_SEQ_Embulk_Test FROM DUAL;

    IF INSERTING THEN
        DBMS_SCHEDULER.CREATE_JOB (
        JOB_NAME   => 'Embulk_Test_' || TO_CHAR(L_SEQ_Embulk_Test, 'FM0000000000000000000'),
        JOB_TYPE   => 'EXECUTABLE',
        JOB_ACTION => 'C:\Users\xxxxx\Desktop\embulk\cmd.exe /c C:\Users\xxxxx\Desktop\embulk\oracle_to_bigquery.bat',
        start_date => TO_DATE('2018/11/13 00:00:00','yyyy/mm/dd hh24:mi:ss'),
        end_date   => TO_DATE('2999/12/31 00:00:00','yyyy/mm/dd hh24:mi:ss'),
        auto_drop => TRUE,
        enabled => TRUE
        );
    END IF;

dbms_output.put_line('OracleDB to BigQuery Bulk Insert End');
dbms_output.put_line('-------------------------');

end;
/


※※oracle_to_bigquery.bat※※

set ORACLE_SID=ORCL
set http_proxy=http://xxx:xxx
set http_proxy_user=xxx
set http_proxy_pass=xxx
C:\Users\xxxxx\Desktop\embulk\embulk-0.9.8.bat run C:\Users\xxxxx\Desktop\embulk\config_bq_incremental.yml.liquid -c C:\Users\xxxxx\Desktop\embulk\diff.yml >> C:\Users\xxxxx\Desktop\embulk\log\ORA_to_BQ_log003.txt


※※config_bq_incremental.yml.liquid※※
in:
  type: oracle
  path_prefix: null
  driver_path: C:\Users\xxxxx\Desktop\embulkDB\product\12.2.0\dbhome_1\sqldeveloper\jdbc\lib\ojdbc7.jar
  host: xxx
  user: xxx
  password: xxxxx
  database: ORCL
  table: INPUT_TEST
  incremental: true
  incremental_columns: [DT]
out: {type: bigquery, auth_method: json_key, json_keyfile: 'C:\Users\xxxxx\Desktop\embulk\My
    First Project-6041ffecfba7.json', project: xxxx, dataset: embulk_test,
  auto_create_table: true, table: users, read_timeout_sec: 360000, open_timeout_sec: 360000,
  send_timeout_sec: 360000, mode: append}
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

embulk-0.9.8.bat run config_bq.yml.liquid -c diff.yml
が完了しないうちに、別の
embulk-0.9.8.bat run config_bq.yml.liquid -c diff.yml
を動かすというのはembulkは想定していません。

どこかの質問で回答したとおり、トリガを使う場合はfluendのようなストリーム処理の方を使うか
あるいは、同時起動しないように排他制御する必要があると思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/12/10 10:31

    ご回答有難うございます。
    同時起動しないように排他制御する方法がありましたら、ご教示の程宜しくお願い致します。

    キャンセル

  • 2018/12/10 14:15

    embulkを起動する前にロックファイルを作ってファイルがあったら起動させないとかですかね。

    自分なら(1) トリガー&fluentdか、(2) embulk定期実行(トリガーなし)を検討すると思います。

    キャンセル

同じタグがついた質問を見る

  • Java

    14471questions

    Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

  • Oracle Database

    100questions

    Oracle Databaseは、米オラクルが開発・販売を行うリレーショナルデータベース管理システムです。

  • BigQuery

    64questions

    BigQueryは、Google Cloud Platformが提供しているビッグデータ解析サービス。数TB(テラバイト)またはPB(ペタバイト)の膨大なデータに対し、SQL風のクエリを実行し、高速で集計・分析を行うサービスです。

  • Embulk

    18questions

    Embulkは、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができる、プラグインベースのバルクデータローダーです。