実現したいこと
Digdagのバージョンを0.10.4→0.10.5にアップデートを実施しました。
アップデートを実施したのちデータ転送基盤の正常性を確認したところ、Digdagでスケジュール通りにワークフローが実行されない事象(3時間以上の遅延)を確認しています。
本遅延の原因の解明、および事象解消したく検討しています。
前提
AWS Fargate上でDigdag serverコンテナ+Digdag workerコンテナ+Embulkコンテナでデータ転送基盤を構築しています。
環境: Digdag: 0.10.4→0.10.5
Amazon Linux:
public.ecr.aws/amazonlinux/amazonlinux:2.0.20230119.1
→public.ecr.aws/amazonlinux/amazonlinux:2.0.20230628.0
Farggate Spot
Postgre SQL:13.10
設定ファイル:
sla.dig
sla: #duration: 時:分:秒(経過時間) duration: 01:00:00 fail: false +notice: echo>: "[WARN] Execution Time 60 minutes Exceeded."
schedule.dig
schedule: hourly>: 00:00 skip_on_overtime: false
ログ:
原因となるログが確認できていません。
scheduler等をDigdagのOS標準出力のログを確認していますが、上記SLA違反(3時間以上の遅延によるdurationを超えたログ)は確認しています。
[CRITICAL] Execution Time 60 minutes Exceeded.
発生している問題・エラーメッセージ
スケジュール通りにワークフローが実行されない(遅延している)以外はワークフローの実行等にError等は出ていません。
該当のソースコード
2023-10-02 10:15:00+09 実行時 digdag_dbにて以下コマンドを実行。
digdag_db=> SELECT
digdag_db-> s.id, p.name AS project_name, w.name AS workflow_name,
digdag_db-> to_timestamp(s.next_run_time) AS next_run_time,
digdag_db-> to_timestamp(s.next_schedule_time) next_schedule_time,
digdag_db-> to_timestamp(s.last_session_time) AS last_session_time,
digdag_db-> s.created_at,s.updated_at,s.disabled_at
digdag_db-> FROM schedules s, projects p, workflow_definitions w
digdag_db-> WHERE project_id = p.id
digdag_db-> AND workflow_definition_id = w.id
digdag_db-> ORDER BY 2,3;
id | project_name | workflow_name | next_run_time | next_schedule_time | last_session_time | created_at | updated_at | disabled_at
------+----------------+------------------------------------------------------+------------------------+------------------------+------------------------+-------------------------------+-------------------------------+-------------
2242 | aaaa | aaaa_endpoint_aaaaa | 2023-10-02 08:20:00+09 | 2023-10-02 08:20:00+09 | 2023-10-02 07:50:00+09 | 2023-01-11 14:24:56.892609+09 | 2023-10-02 09:51:02.757178+09 |
2241 | aaaa | aaaa_aaaaaa-endpoint_event_aaaaaaa-aaaa-pc01 | 2023-10-02 07:20:00+09 | 2023-10-02 07:20:00+09 | 2023-10-02 07:10:00+09 | 2023-01-11 14:24:56.892609+09 | 2023-10-02 09:23:38.228986+09 |
2244 | aaaa | aaaa_aaaaaa-endpoint_event_aaaaaaa-aaaa-pc02 | 2023-10-02 07:10:00+09 | 2023-10-02 07:10:00+09 | 2023-10-02 04:50:00+09 | 2023-01-11 14:24:56.892609+09 | 2023-10-02 09:19:33.995814+09 |
2243 | aaaa | aaaa_aaaaaa-endpoint_event_aaaaaaa-aaaa-pc03 | 2023-10-02 08:10:00+09 | 2023-10-02 08:10:00+09 | 2023-10-02 08:00:00+09 | 2023-01-11 14:24:56.892609+09 | 2023-10-02 09:51:36.496488+09 |
試したこと
上記SQL文を定期的に実行して遅延時間に変化がない(遅延し続けている)ことを確認しています。
補足情報(FW/ツールのバージョンなど)
Digdagサーバのスケジュール実行がさぼっているように見受けられます。
遅延発生から3日経過しますが、改善の状況が見られません。
以下2点、ご教示ください。
・next_schedule_time(3 hours ago) をスケジュール通りの実行時刻に戻す方法
・原因究明のためのdigdagログの検索方法
確認観点が不足していればご指摘お願いします。
以上、よろしくお願いします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2023/10/05 05:38 編集
2023/10/05 12:55