新しいデータを自動的に処理するスケジュールを作成する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

新しいデータを自動的に処理するスケジュールを作成する

注記

次のセクションは、SageMaker 処理ジョブにのみ適用されます。デフォルトの Canvas 設定または EMR Serverless を使用して、データセット全体に変換を適用するリモートジョブを作成した場合、このセクションは適用されません。

データを定期的に処理する場合は、処理ジョブを自動的に実行するスケジュールを作成できます。例えば、新しいデータを取得したときに処理ジョブを自動的に実行するスケジュールを作成できます。処理ジョブの詳細については、「Amazon S3 へのエクスポート」を参照してください。

ジョブを作成する場合、ジョブを作成する権限を持つ IAM ロールを指定する必要があります。AmazonSageMakerCanvasDataPrepFullAccess ポリシーを使用して権限を追加できます。

ロールに次の信頼ポリシーを追加して、EventBridge がそれを引き継げるようにします。

{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
重要

スケジュールを作成すると、Data Wrangler は EventBridge に eventRule を作成します。作成したイベントルールと、処理ジョブの実行に使用したインスタンスの両方に料金が発生します。

EventBridge の料金の詳細については、「Amazon EventBridge の料金」を参照してください。ジョブ料金の処理については、Amazon SageMaker料金表」を参照してください。

次のいずれかの方法を使用して、ジョブのスケジュールを設定できます。

  • CRON 式

    注記

    Data Wrangler は次の式をサポートしていません。

    • LW#

    • 曜日の略語

    • 月の略語

  • RATE 式

  • 繰り返し – ジョブを実行する間隔を 1 時間ごとまたは 1 日ごとに設定します。

  • 特定の時間 – ジョブを実行する特定の曜日と時間を設定します。

以下のセクションでは、データを Amazon S3S3 にエクスポートするときに SageMaker AI Processing ジョブ設定を入力するときにジョブをスケジュールする手順について説明します。以下の手順はすべて、SageMaker 処理ジョブ設定の [スケジュールの関連付け] セクションで開始されます。

CRON

CRON 式を使用してスケジュールを作成するには、次の手順を使用します。

  1. [Amazon S3 にエクスポート] サイドパネルで、[自動ジョブ設定] トグルがオフになっており、[SageMaker 処理] オプションが選択されていることを確認します。

  2. [SageMaker 処理] ジョブ設定で、[スケジュールの関連付け] セクションを開き、[新しいスケジュールを作成] を選択します。

  3. [新しいスケジュールを作成] ダイアログボックスが開きます。[スケジュール名] にスケジュールの名前を指定します。

  4. [実行頻度][CRON] を選択します。

  5. [分][時間][日][月][曜日] の各フィールドに、有効な CRON 式値を入力します。

  6. [Create] (作成) を選択します。

  7. (オプション) 追加のスケジュールでジョブを実行するには、[別のスケジュールを追加] を選択します。

    注記

    最大 2 つのスケジュールを関連付けることができます。スケジュールは独立しており、時間が重複しない限り互いに影響しません。

  8. 次のいずれかを選択します。

    • スケジュールして今すぐ実行 – ジョブはただちに実行され、その後はスケジュールに従って実行されます。

    • スケジュールのみ – ジョブは指定したスケジュールでのみ実行されます。

  9. 残りのエクスポートジョブ設定を入力したら、[エクスポート] を選択します。

RATE

RATEN 式を使用してスケジュールを作成するには、次の手順を使用します。

  1. [Amazon S3 にエクスポート] サイドパネルで、[自動ジョブ設定] トグルがオフになっており、[SageMaker 処理] オプションが選択されていることを確認します。

  2. [SageMaker 処理] ジョブ設定で、[スケジュールの関連付け] セクションを開き、[新しいスケジュールを作成] を選択します。

  3. [新しいスケジュールを作成] ダイアログボックスが開きます。[スケジュール名] にスケジュールの名前を指定します。

  4. [実行頻度][Rate] を選択します。

  5. [値] には整数値を指定します。

  6. [単位] で、次のいずれかを選択します。

    • 時間

    • 日間

  7. [Create] (作成) を選択します。

  8. (オプション) 追加のスケジュールでジョブを実行するには、[別のスケジュールを追加] を選択します。

    注記

    最大 2 つのスケジュールを関連付けることができます。スケジュールは独立しており、時間が重複しない限り互いに影響しません。

  9. 次のいずれかを選択します。

    • スケジュールして今すぐ実行 – ジョブはただちに実行され、その後はスケジュールに従って実行されます。

    • スケジュールのみ – ジョブは指定したスケジュールでのみ実行されます。

  10. 残りのエクスポートジョブ設定を入力したら、[エクスポート] を選択します。

Recurring

以下の手順に従って、ジョブを定期的に実行するスケジュールを作成します。

  1. [Amazon S3 にエクスポート] サイドパネルで、[自動ジョブ設定] トグルがオフになっており、[SageMaker 処理] オプションが選択されていることを確認します。

  2. [SageMaker 処理] ジョブ設定で、[スケジュールの関連付け] セクションを開き、[新しいスケジュールを作成] を選択します。

  3. [新しいスケジュールを作成] ダイアログボックスが開きます。[スケジュール名] にスケジュールの名前を指定します。

  4. [実行頻度] では、[繰り返し] を選択します。

  5. [x 時間ごと] には、1 日にジョブを実行する時間単位の頻度を指定します。有効な値は、1 から 23 までの範囲内の整数です。

  6. [日間] で、次のいずれかのオプションを選択します。

    • 毎日

    • 週末

    • 平日

    • 曜日を選択

    1. (オプション) [曜日を選択] を選択した場合は、ジョブを実行する曜日を選択します。

    注記

    スケジュールは毎日リセットされます。5 時間ごとに実行するようにジョブをスケジュールすると、ジョブは 1 日のうち次の時間に実行されます。

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  7. [Create] (作成) を選択します。

  8. (オプション) 追加のスケジュールでジョブを実行するには、[別のスケジュールを追加] を選択します。

    注記

    最大 2 つのスケジュールを関連付けることができます。スケジュールは独立しており、時間が重複しない限り互いに影響しません。

  9. 次のいずれかを選択します。

    • スケジュールして今すぐ実行 – ジョブはただちに実行され、その後はスケジュールに従って実行されます。

    • スケジュールのみ – ジョブは指定したスケジュールでのみ実行されます。

  10. 残りのエクスポートジョブ設定を入力したら、[エクスポート] を選択します。

Specific time

次の手順を使用して、ジョブを特定の時間に実行するスケジュールを作成します。

  1. [Amazon S3 にエクスポート] サイドパネルで、[自動ジョブ設定] トグルがオフになっており、[SageMaker 処理] オプションが選択されていることを確認します。

  2. [SageMaker 処理] ジョブ設定で、[スケジュールの関連付け] セクションを開き、[新しいスケジュールを作成] を選択します。

  3. [新しいスケジュールを作成] ダイアログボックスが開きます。[スケジュール名] にスケジュールの名前を指定します。

  4. [実行頻度] で、[開始時刻] を選択します。

  5. [開始時刻] には、時刻を UTC 形式で入力します (例:09:00)。開始時刻は、デフォルトではユーザーのタイムゾーンになります。

  6. [日間] で、次のいずれかのオプションを選択します。

    • 毎日

    • 週末

    • 平日

    • 曜日を選択

    1. (オプション) [曜日を選択] を選択した場合は、ジョブを実行する曜日を選択します。

  7. [Create] (作成) を選択します。

  8. (オプション) 追加のスケジュールでジョブを実行するには、[別のスケジュールを追加] を選択します。

    注記

    最大 2 つのスケジュールを関連付けることができます。スケジュールは独立しており、時間が重複しない限り互いに影響しません。

  9. 次のいずれかを選択します。

    • スケジュールして今すぐ実行 – ジョブはただちに実行され、その後はスケジュールに従って実行されます。

    • スケジュールのみ – ジョブは指定したスケジュールでのみ実行されます。

  10. 残りのエクスポートジョブ設定を入力したら、[エクスポート] を選択します。

SageMaker AI を使用して、実行がスケジュールされているジョブ AWS Management Console を表示できます。処理ジョブは Pipelines 内で実行されます。処理ジョブにはそれぞれ独自のパイプラインがあります。これはパイプライン内の処理ステップとして実行されます。パイプライン内で作成したスケジュールを表示できます。パイプラインの表示の詳細については、「パイプラインの詳細を表示する」を参照してください。

スケジュールしたジョブを表示するには、次の手順を使用します。

スケジュールしたジョブを表示するには、以下を実行します。

  1. Amazon SageMaker Studio Classic を開きます。

  2. Pipelines を開きます。

  3. 作成したジョブのパイプラインを表示します。

    ジョブを実行するパイプラインは、ジョブ名をプレフィックスとして使用します。例えば、housing-data-feature-enginnering という名前のジョブを作成した場合、パイプラインの名前は canvas-data-prep-housing-data-feature-engineering です。

  4. ジョブを含むパイプラインを選択します。

  5. パイプラインのステータスを表示します。[ステータス][成功] のパイプラインは、処理ジョブを正常に実行しています。

処理ジョブの実行を停止するには、以下を実行します。

処理ジョブの実行を停止するには、スケジュールを指定するイベントルールを削除します。イベントルールを削除すると、そのスケジュールに関連するすべてのジョブの実行が停止します。ルールの削除については、「Amazon EventBridge ルールの無効化または削除」を参照してください。

スケジュールに関連付けられているパイプラインを停止したり削除したりすることもできます。パイプラインを停止する方法については、「StopPipelineExecution」を参照してください。パイプラインの削除については、「DeletePipeline」を参照してください。