AWS Glue でワークフローを手動により作成および構築する
AWS Glue コンソールにより、ワークフローのノードを一度に 1 つずつ手動で作成し構築できます。
ワークフローは、ジョブ、クローラ、トリガーで構成されます。ワークフローの手動作成を開始する前に、ワークフローに含めるジョブとクローラを作成します。ワークフローのクローラは、オンデマンドで実行するように指定するのが最適です。トリガーは、ワークフローの構築中に新規作成できます。または、既存のトリガーをワークフロー内に 複製することもできます。トリガーをクローンすると、トリガーに関連付けられたすべてのカタログオブジェクト (トリガーを起動するジョブまたはクローラ、トリガーにより開始されるジョブまたはクローラ) がワークフローに追加されます。
重要
ワークフロー内のジョブ、クローラ、トリガーの総数を 100 以下に制限します。100 を超える値を含めると、ワークフローの実行を再開または停止しようとしたときにエラーが発生することがあります。
ワークフローを構築するには、ワークフローのグラフにトリガーを追加し、トリガーごとに監視対象のイベントやアクションを定義します。まず、開始トリガーとしてオンデマンドトリガーまたはスケジュールトリガーを追加し、次にイベント (条件付き) トリガーを追加してグラフを完成します。
ステップ 1: ワークフローを作成する
AWS Management Consoleにサインインし、AWS Glue コンソール (https://console.aws.amazon.com/glue/
) を開きます。 -
ナビゲーションペインの [ETL] で、[ワークフロー] を選択します。
-
[ワークフロー] を選択し、[Add a new ETL workflow (新しい ETL ワークフローの追加)] フォームに入力します。
オプションとして追加したデフォルトの実行プロパティは、ワークフローのすべてのジョブに対する引数として使用できます。詳細については、AWS Glue でのワークフローの実行プロパティの取得と設定 を参照してください。
-
[Add workflow (ワークフローの追加)] を選択します。
新しいワークフローが [ワークフロー] ページのリストに表示されます。
ステップ 2: 開始トリガーを追加する
-
[ワークフロー] ページで、新しいワークフローを選択します。次に、ページの下部で [Graph] (グラフ) タブが選択されていることを確認します。
-
[トリガーを追加] を選択し、[トリガーを追加] ダイアログボックスで、次のいずれかの操作を行います。
-
[Clone existing (既存の複製)] を選択し、複製するトリガーを選択します。その後、[Add] (追加) を選択します。
トリガーがグラフに表示されます。トリガーで監視するジョブやクローラおよびトリガーで開始するジョブやクローラも表示されます。
トリガーを間違えて選択した場合は、そのトリガーをグラフで選択し、[削除] を選択します。
-
[Add new (新規追加)] を選択し、[トリガーを追加] フォームに入力します。
-
[Trigger type] (トリガータイプ) で、[Schedule] (スケジュール)、[On demand] (オンデマンド)、または [EventBridge event] (EventBridge イベント) のいずれかを選択します。
トリガータイプを [Schedule] (スケジュール) にした場合、[Frequency] (頻度) オプションの中から 1 つを選択します。
cron
式を入力するには、[Custom] (カスタム) をクリックします。トリガータイプに [EventBridge event] (EventBridge イベント) を選択した場合は、[Number of events] (イベント数) (バッチサイズ) を入力し、オプションで [Time delay] (遅延時間) (バッチウィンドウ) を入力します。[Time delay] (遅延時間) を省略した場合、デフォルトでバッチウィンドウには 15 分が指定されます。詳細については、AWS Glue のワークフローの概要 を参照してください。
-
[追加] を選択します。
トリガーがグラフ上に表示されます。プレースホルダーノード ([Add node (ノードの追加)] というラベルが付いたノード) も一緒に表示されます。以下の例では、開始トリガーは
Month-close1
という名前のスケジュールされたトリガーです。この段階では、トリガーは保存されていません。
-
-
-
新しいトリガーを追加した場合は、以下のステップを実行します。
-
次のいずれかを行います。
-
プレースホルダーノード ([Add node (ノードの追加]) を選択します。
-
開始トリガーが選択されていることを確認し、 [アクション] メニューの [Add jobs/crawlers to trigger (トリガーにジョブ/クローラを追加)] を選択します。
-
-
Add job(s) and crawler(s) to trigger (トリガーにジョブおよびクローラを追加)] ダイアログボックスで、1 つ以上のジョブまたはクローラを選択し、 [追加] を選択します。
トリガーが保存されます。選択したジョブまたはクローラが、トリガーからのコネクタと共にグラフに表示されます。
ジョブやクローラを間違って追加した場合は、トリガーまたはコネクタを選択して、[削除] を選択できます。
-
ステップ 3: さらにトリガーを追加する
[Event] (イベント) タイプのトリガーをさらに追加して、ワークフローの構築を続けます。グラフのキャンバスを拡大または縮小するには、グラフの右側にあるアイコンを使用します。追加するトリガーごとに、以下の手順を実行します。
注記
ワークフローの保存のために、行うべきアクションはありません。最後のトリガーを追加し、そのトリガーにアクションを割り当てると、ワークフローが完了し保存されます。後の任意のタイミングでこの作業に戻り、さらにノードを追加することができます。
-
次のいずれかを行います。
-
既存のトリガーを複製するには、グラフで選択されているノードがないことを確認し、 [アクション] メニューの [トリガーを追加] を選択します。
-
グラフ上の特定のジョブまたはクローラを監視する新しいトリガーを追加するには、そのジョブまたはクローラのノードを選択し、[トリガーを追加] プレースホルダーノードを選択します。
後のステップで、このトリガーで監視するジョブやクローラをさらに追加できます。
-
-
[トリガーを追加] ダイアログボックスで、次のいずれかの操作を行います。
-
[Add new (新規追加)] を選択し、[トリガーを追加] フォームに入力します。その後、[Add] (追加) を選択します。
トリガーがグラフに表示されます。後のステップでトリガーを完了します。
-
[Clone existing (既存の複製)] を選択し、複製するトリガーを選択します。その後、[Add] (追加) を選択します。
トリガーがグラフに表示されます。トリガーで監視するジョブやクローラおよびトリガーで開始するジョブやクローラも表示されます。
トリガーを間違って選択した場合は、そのトリガーをグラフで選択し、[削除] を選択します。
-
-
新しいトリガーを追加した場合は、以下のステップを実行します。
-
新しいトリガーを選択します。
次のように、トリガー
De-dupe/fix succeeded
が選択された状態のグラフが表示され、プレースホルダーノードが (1) イベント用、ならびに (2) アクション用として表示されます。 -
(トリガーでイベントを既に監視しており、監視対象のジョブやクローラをを追加する場合のオプション) 監視対象イベントのプレースホルダーノードを選択し、[Add job(s) and crawler(s) to watch (監視するジョブやクローラの追加)] ダイアログボックスで 1 つ以上のジョブまたはクローラを選択します。監視対象のイベント (成功、失敗など) を選択して、 [追加] を選択します。
-
トリガーが選択されていることを確認し、アクション用のプレースホルダーノードを選択します。
-
[Add job(s) and crawler(s) to watch (監視対象のジョブやクローラの追加)] ダイアログボックスで 1 つ以上のジョブまたはクローラを選択し、[追加] を選択します。
選択したジョブやクローラがグラフに表示されます。トリガーからのコネクタも表示されます。
-
Express ワークフローと サービス統合の詳細については、以下を参照してください。