翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ジョブ
Jobs API では、AWS Glue でのジョブの作成、更新、削除、表示に関連するデータ型と API について説明します。
データ型
Job 構造
ジョブ定義を指定します。
フィールド
-
Name
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このジョブ定義に割り当てる名前。
-
JobMode
– UTF-8 文字列 (有効な値:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
)。ジョブの作成方法を説明するモード。有効な値は次のとおりです。
-
SCRIPT
- ジョブは AWS Glue Studio スクリプトエディタを使用して作成されました。 -
VISUAL
- ジョブは AWS Glue Studio ビジュアルエディタを使用して作成されました。 -
NOTEBOOK
- ジョブはインタラクティブセッションノートブックを使用して作成されました。
JobMode
フィールドが欠落しているか null の場合、SCRIPT
がデフォルト値として割り当てられます。 -
-
JobRunQueuingEnabled
– ブール。このジョブのジョブ実行に対し、ジョブ実行キューイングが有効であるかどうかを指定します。
true の値は、ジョブ実行キューイングがジョブ実行に対して有効であることを意味します。false または未入力の場合、ジョブ実行はキューイングの対象になりません。
このフィールドがジョブ実行で設定された値と一致しない場合、ジョブ実行フィールドの値が使用されます。
-
Description
– 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。ジョブの説明。
-
LogUri
– UTF-8 文字列。このフィールドは、将来の利用のために予約されています。
-
Role
– UTF-8 文字列。このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN)。
-
CreatedOn
– タイムスタンプ。このジョブ定義を作成した日時。
-
LastModifiedOn
– タイムスタンプ。このジョブ定義を変更した最後の時点。
-
ExecutionProperty
– ExecutionProperty オブジェクト。このジョブに許可される同時実行の最大数を指定する
ExecutionProperty
。 -
Command
– JobCommand オブジェクト。このジョブを実行する
JobCommand
。 -
DefaultArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。
独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。
ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、AWS Glue 接続、AWS Secrets Manager または他のシークレット管理メカニズムから取得します。
独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。
Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。
Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。
-
NonOverridableArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。
-
Connections
– ConnectionsList オブジェクト。このジョブに使用される接続。
-
MaxRetries
– 数値 (整数)。ジョブ実行の失敗後に、このジョブを再試行する最大回数。
-
AllocatedCapacity
– 数値 (整数)。このフィールドは廃止されました。代わりに
MaxCapacity
を使用します。このジョブの実行に割り当てられた AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、AWS Glue 料金表ページ
を参照してください。 -
Timeout
- 数値 (整数)。1 以上。ジョブのタイムアウト (分)。ジョブ実行が終了済みになって
TIMEOUT
ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。バッチジョブのデフォルト値は 2,880 分 (48 時間) です。ストリーミングジョブのタイムアウト値は 7 日または 10080 分未満である必要があります。値を空白のままにすると、メンテナンスウィンドウを設定していない場合、ジョブは 7 日後に再起動されます。メンテナンスウィンドウを設定している場合、7 日後のメンテナンスウィンドウ中に再起動されます。
-
MaxCapacity
– 数値 (double)。Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、AWS Glue 料金表ページ
を参照してください。 一方、Glue バージョン 2.0 以降のジョブでは、
Maximum capacity
を指定できません。代わりに、Worker type
とNumber of workers
を指定する必要があります。WorkerType
およびNumberOfWorkers
を使用している場合はMaxCapacity
を設定しないでください。MaxCapacity
に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。-
Python シェルジョブを指定すると (
JobCommand.Name
="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。 -
Apache Spark ETL ジョブ (
JobCommand.Name
="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name
="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。
-
-
WorkerType
– UTF-8 文字列 (有効な値:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
)。ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。
-
G.1X
ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 1 DPU (4 vCPU、16 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。 -
G.2X
ワーカータイプでは、各ワーカーは 128 GB のディスク (約 77 GB の空き容量) を備えた 2 DPU (8 vCPU、32 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。 -
G.4X
ワーカータイプでは、各ワーカーは 256 GB のディスク (約 235 GB の空き容量) を備えた 4 DPU (16 vCPU、64 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、以下の AWS リージョンで使用できます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム)。 -
G.8X
ワーカータイプでは、各ワーカーは 512 GB のディスク (約 487 GB の空き容量) を備えた 8 DPU (32 vCPU、128 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、G.4X
ワーカータイプでサポートされているのと同じ AWS リージョンで使用できます。 -
G.025X
ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 0.25 DPU (2 vCPU、4 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。少量のストリーミングジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 のストリーミングジョブでのみ使用できます。 -
Z.2X
ワーカータイプでは、各ワーカーは 128 GB のディスク (約 120 GB の空き容量) を備えた 2 M-DPU (8 vCPU、64 GB のメモリ) にマッピングされており、オートスケーラーに基づき最大 8 個の Ray ワーカーを提供します。
-
-
NumberOfWorkers
– 数値 (整数)。ジョブの実行時に割り当てられた、定義済みの
workerType
ワーカー数。 -
SecurityConfiguration
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このジョブで使用される
SecurityConfiguration
構造の名前。 -
NotificationProperty
– NotificationProperty オブジェクト。ジョブ通知の設定プロパティを指定します。
-
Running
– ブール。このフィールドは、将来の利用のために予約されています。
-
GlueVersion
– UTF-8 文字列、1~255 バイト長、Custom string pattern #20 に一致。Spark ジョブでは、AWS Glue がジョブで使用できる Apache Spark と Python のバージョンは
GlueVersion
によって決まります。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。Ray ジョブの場合、
GlueVersion
を4.0
以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドのRuntime
パラメータによって決まります。利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue version」を参照してください。
Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。
-
CodeGenConfigurationNodes
– キーバリューペアのマップ配列。各キーは、Custom string pattern #42 に適合する UTF-8 文字列です。
各値は CodeGenConfigurationNode オブジェクトです。
Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。
-
ExecutionClass
- UTF-8 文字列。16 バイト長以下 (有効値:FLEX=""
|STANDARD=""
)。ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。
柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。
AWS Glue バージョン 3.0 以上のジョブの場合のみ、コマンドタイプ
glueetl
でExecutionClass
をFLEX
に設定できます。柔軟な実行クラスは Spark ジョブで使用できます。 -
SourceControlDetails
– SourceControlDetails オブジェクト。ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。
-
MaintenanceWindow
– UTF-8 文字列、「Custom string pattern #30」に一致。このフィールドでは、ストリーミングジョブのメンテナンスウィンドウの曜日と時間を指定します。AWS Glue は定期的にメンテナンスアクティビティを実行します。AWS Glue は、これらのメンテナンスウィンドウ中にストリーミングジョブを再起動する必要があります。
AWS Glue は、指定されたメンテナンスウィンドウの 3 時間以内にジョブを再起動します。たとえば、月曜日の午前 10 時 (GMT) にメンテナンスウィンドウを設定すると、ジョブは午前 10 時 (GMT) から午後 1 時 (GMT) までの間に再起動されます。
-
ProfileName
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。ジョブに関連関連付けられた AWS Glue 使用プロフィールの名前。
ExecutionProperty 構造
ジョブの実行プロパティ。
フィールド
-
MaxConcurrentRuns
– 数値 (整数)。このジョブで許可される同時実行の最大数。デフォルト は 1 です。このしきい値に達すると、エラーが返されます。指定できる最大値は、サービスの制限によってコントロールされます。
NotificationProperty 構造
通知の構成プロパティを指定します。
フィールド
-
NotifyDelayAfter
- 数値 (整数)。1 以上。ジョブの実行が開始された後、ジョブ実行遅延通知を送信するまでの待機時間 (分単位)。
JobCommand 構造
ジョブの実行時に実行するコードを指定します。
フィールド
-
Name
– UTF-8 文字列。ジョブコマンドの名前。Apache Spark ETL ジョブの場合は、
glueetl
を指定する必要があります。Python シェルジョブの場合は、pythonshell
を指定する必要があります。Apache Spark ストリーミング ETL ジョブの場合は、gluestreaming
を指定する必要があります。Ray ジョブの場合は、glueray
を指定する必要があります。 -
ScriptLocation
- UTF-8 文字列。400000 バイト長以下。ジョブを実行するスクリプトへの Amazon Simple Storage Service (Amazon S3) パスを指定します。
-
PythonVersion
– UTF-8 文字列、「Custom string pattern #21」に一致。Python シェルジョブを実行するために使用中の Python のバージョン。指定できる値は、2 または 3 です。
-
Runtime
- UTF-8 文字列、64 バイト長以下、Custom string pattern #29 に一致。Ray ジョブではランタイムを使用して、環境で使用可能な Ray、Python、および他のライブラリのバージョンを指定します。このフィールドは、他のジョブタイプでは使用されません。サポートされているランタイム環境の値については、「AWS Glue デベロッパーガイド」の「サポートされている Ray のランタイム環境」を参照してください。
ConnectionsList 構造
ジョブが使用する接続を指定します。
フィールド
-
Connections
– UTF-8 文字列の配列。ジョブが使用する接続のリスト。
JobUpdate 構造
既存のジョブ定義を更新するための情報を指定します。以前のジョブ定義はこの情報によって完全に上書きされます。
フィールド
-
JobMode
– UTF-8 文字列 (有効な値:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
)。ジョブの作成方法を説明するモード。有効な値は次のとおりです。
-
SCRIPT
- ジョブは AWS Glue Studio スクリプトエディタを使用して作成されました。 -
VISUAL
- ジョブは AWS Glue Studio ビジュアルエディタを使用して作成されました。 -
NOTEBOOK
- ジョブはインタラクティブセッションノートブックを使用して作成されました。
JobMode
フィールドが欠落しているか null の場合、SCRIPT
がデフォルト値として割り当てられます。 -
-
JobRunQueuingEnabled
– ブール。このジョブのジョブ実行に対し、ジョブ実行キューイングが有効であるかどうかを指定します。
true の値は、ジョブ実行キューイングがジョブ実行に対して有効であることを意味します。false または未入力の場合、ジョブ実行はキューイングの対象になりません。
このフィールドがジョブ実行で設定された値と一致しない場合、ジョブ実行フィールドの値が使用されます。
-
Description
– 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。定義するジョブの説明。
-
LogUri
– UTF-8 文字列。このフィールドは、将来の利用のために予約されています。
-
Role
– UTF-8 文字列。このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN) (必須)。
-
ExecutionProperty
– ExecutionProperty オブジェクト。このジョブに許可される同時実行の最大数を指定する
ExecutionProperty
。 -
Command
– JobCommand オブジェクト。このジョブを実行する
JobCommand
(必須)。 -
DefaultArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。
独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。
ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、AWS Glue 接続、AWS Secrets Manager または他のシークレット管理メカニズムから取得します。
独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。
Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。
Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。
-
NonOverridableArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。
-
Connections
– ConnectionsList オブジェクト。このジョブに使用される接続。
-
MaxRetries
– 数値 (整数)。失敗した場合にこのジョブを再試行する最大回数。
-
AllocatedCapacity
– 数値 (整数)。このフィールドは廃止されました。代わりに
MaxCapacity
を使用します。このジョブに割り当てる AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、AWS Glue 料金表ページ
を参照してください。 -
Timeout
- 数値 (整数)。1 以上。ジョブのタイムアウト (分)。ジョブ実行が終了済みになって
TIMEOUT
ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。バッチジョブのデフォルト値は 2,880 分 (48 時間) です。ストリーミングジョブのタイムアウト値は 7 日または 10080 分未満である必要があります。値を空白のままにすると、メンテナンスウィンドウを設定していない場合、ジョブは 7 日後に再起動されます。メンテナンスウィンドウを設定している場合、7 日後のメンテナンスウィンドウ中に再起動されます。
-
MaxCapacity
– 数値 (double)。Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、AWS Glue 料金表ページ
を参照してください。 一方、Glue バージョン 2.0 以降のジョブでは、
Maximum capacity
を指定できません。代わりに、Worker type
とNumber of workers
を指定する必要があります。WorkerType
およびNumberOfWorkers
を使用している場合はMaxCapacity
を設定しないでください。MaxCapacity
に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。-
Python シェルジョブを指定すると (
JobCommand.Name
="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。 -
Apache Spark ETL ジョブ (
JobCommand.Name
="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name
="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。
-
-
WorkerType
– UTF-8 文字列 (有効な値:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
)。ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。
-
G.1X
ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 1 DPU (4 vCPU、16 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。 -
G.2X
ワーカータイプでは、各ワーカーは 128 GB のディスク (約 77 GB の空き容量) を備えた 2 DPU (8 vCPU、32 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。 -
G.4X
ワーカータイプでは、各ワーカーは 256 GB のディスク (約 235 GB の空き容量) を備えた 4 DPU (16 vCPU、64 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、以下の AWS リージョンで使用できます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム)。 -
G.8X
ワーカータイプでは、各ワーカーは 512 GB のディスク (約 487 GB の空き容量) を備えた 8 DPU (32 vCPU、128 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、G.4X
ワーカータイプでサポートされているのと同じ AWS リージョンで使用できます。 -
G.025X
ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 0.25 DPU (2 vCPU、4 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。少量のストリーミングジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 のストリーミングジョブでのみ使用できます。 -
Z.2X
ワーカータイプでは、各ワーカーは 128 GB のディスク (約 120 GB の空き容量) を備えた 2 M-DPU (8 vCPU、64 GB のメモリ) にマッピングされており、オートスケーラーに基づき最大 8 個の Ray ワーカーを提供します。
-
-
NumberOfWorkers
– 数値 (整数)。ジョブの実行時に割り当てられた、定義済みの
workerType
ワーカー数。 -
SecurityConfiguration
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このジョブで使用される
SecurityConfiguration
構造の名前。 -
NotificationProperty
– NotificationProperty オブジェクト。ジョブ通知の設定プロパティを指定します。
-
GlueVersion
– UTF-8 文字列、1~255 バイト長、Custom string pattern #20 に一致。Spark ジョブでは、AWS Glue がジョブで使用できる Apache Spark と Python のバージョンは
GlueVersion
によって決まります。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。Ray ジョブの場合、
GlueVersion
を4.0
以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドのRuntime
パラメータによって決まります。利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue version」を参照してください。
Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。
-
CodeGenConfigurationNodes
– キーバリューペアのマップ配列。各キーは、Custom string pattern #42 に適合する UTF-8 文字列です。
各値は CodeGenConfigurationNode オブジェクトです。
Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。
-
ExecutionClass
- UTF-8 文字列。16 バイト長以下 (有効値:FLEX=""
|STANDARD=""
)。ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準の実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。
柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。
AWS Glue バージョン 3.0 以上のジョブの場合のみ、コマンドタイプ
glueetl
でExecutionClass
をFLEX
に設定できます。柔軟な実行クラスは Spark ジョブで使用できます。 -
SourceControlDetails
– SourceControlDetails オブジェクト。ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。
-
MaintenanceWindow
– UTF-8 文字列、「Custom string pattern #30」に一致。このフィールドでは、ストリーミングジョブのメンテナンスウィンドウの曜日と時間を指定します。AWS Glue は定期的にメンテナンスアクティビティを実行します。AWS Glue は、これらのメンテナンスウィンドウ中にストリーミングジョブを再起動する必要があります。
AWS Glue は、指定されたメンテナンスウィンドウの 3 時間以内にジョブを再起動します。たとえば、月曜日の午前 10 時 (GMT) にメンテナンスウィンドウを設定すると、ジョブは午前 10 時 (GMT) から午後 1 時 (GMT) までの間に再起動されます。
-
ProfileName
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。ジョブに関連関連付けられた AWS Glue 使用プロフィールの名前。
SourceControlDetails の構造
ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。
フィールド
-
Provider
– UTF-8 文字列。リモートリポジトリのプロバイダ。
-
Repository
– UTF-8 文字列。1~512 バイト長。ジョブのアーティファクトを含むリモートリポジトリの名前。
-
Owner
– UTF-8 文字列。1~512 バイト長。ジョブのアーティファクトを含むリモートリポジトリの所有者。
-
Branch
– UTF-8 文字列。1~512 バイト長。リモートリポジトリ内のオプションのブランチ。
-
Folder
– UTF-8 文字列。1~512 バイト長。リモートリポジトリ内のオプションのフォルダ。
-
LastCommitId
– UTF-8 文字列。1~512 バイト長。リモートリポジトリ内のコミットの最後のコミット ID。
-
LastSyncTimestamp
– UTF-8 文字列。1~512 バイト長。ジョブ同期が最後に実行された日時。
-
AuthStrategy
– UTF-8 文字列。認証のタイプ。AWS Secrets Manager に保存されている認証トークンまたは個人用アクセストークンのいずれかです。
-
AuthToken
– UTF-8 文字列。1~512 バイト長。認可トークンの値。
操作
CreateJob アクション (Python: create_job)
新しいジョブ定義を作成します。
リクエスト
-
Name
– 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。このジョブ定義に割り当てる名前。 アカウント内で一意にする必要があります。
-
JobMode
– UTF-8 文字列 (有効な値:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
)。ジョブの作成方法を説明するモード。有効な値は次のとおりです。
-
SCRIPT
- ジョブは AWS Glue Studio スクリプトエディタを使用して作成されました。 -
VISUAL
- ジョブは AWS Glue Studio ビジュアルエディタを使用して作成されました。 -
NOTEBOOK
- ジョブはインタラクティブセッションノートブックを使用して作成されました。
JobMode
フィールドが欠落しているか null の場合、SCRIPT
がデフォルト値として割り当てられます。 -
-
JobRunQueuingEnabled
– ブール。このジョブのジョブ実行に対し、ジョブ実行キューイングが有効であるかどうかを指定します。
true の値は、ジョブ実行キューイングがジョブ実行に対して有効であることを意味します。false または未入力の場合、ジョブ実行はキューイングの対象になりません。
このフィールドがジョブ実行で設定された値と一致しない場合、ジョブ実行フィールドの値が使用されます。
-
Description
– 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。定義するジョブの説明。
-
LogUri
– UTF-8 文字列。このフィールドは、将来の利用のために予約されています。
-
Role
– 必須: UTF-8 文字列。このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN)。
-
ExecutionProperty
– ExecutionProperty オブジェクト。このジョブに許可される同時実行の最大数を指定する
ExecutionProperty
。 -
Command
– 必須: JobCommand オブジェクト。このジョブを実行する
JobCommand
。 -
DefaultArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。
独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。
ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、AWS Glue 接続、AWS Secrets Manager または他のシークレット管理メカニズムから取得します。
独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。
Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。
Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。
-
NonOverridableArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。
-
Connections
– ConnectionsList オブジェクト。このジョブに使用される接続。
-
MaxRetries
– 数値 (整数)。失敗した場合にこのジョブを再試行する最大回数。
-
AllocatedCapacity
– 数値 (整数)。このパラメータは廃止されました。代わりに
MaxCapacity
を使用します。このジョブに割り当てる AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、AWS Glue 料金表ページ
を参照してください。 -
Timeout
- 数値 (整数)。1 以上。ジョブのタイムアウト (分)。ジョブ実行が終了済みになって
TIMEOUT
ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。バッチジョブのデフォルト値は 2,880 分 (48 時間) です。ストリーミングジョブのタイムアウト値は 7 日または 10080 分未満である必要があります。値を空白のままにすると、メンテナンスウィンドウを設定していない場合、ジョブは 7 日後に再起動されます。メンテナンスウィンドウを設定している場合、7 日後のメンテナンスウィンドウ中に再起動されます。
-
MaxCapacity
– 数値 (double)。Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、AWS Glue 料金表ページ
を参照してください。 一方、Glue バージョン 2.0 以降のジョブでは、
Maximum capacity
を指定できません。代わりに、Worker type
とNumber of workers
を指定する必要があります。WorkerType
およびNumberOfWorkers
を使用している場合はMaxCapacity
を設定しないでください。MaxCapacity
に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。-
Python シェルジョブを指定すると (
JobCommand.Name
="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。 -
Apache Spark ETL ジョブ (
JobCommand.Name
="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name
="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。
-
-
SecurityConfiguration
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このジョブで使用される
SecurityConfiguration
構造の名前。 -
Tags
– キーと値のペアのマップ配列。50 ペア以下。各キーは UTF-8 文字列で、1~128 バイト長です。
各値は UTF-8 文字列で、256 バイト長以下です。
このジョブと一緒に使用するタグです。ジョブへのアクセスを制限するためにタグを使用することができます。AWS Glue のタグの詳細については、デベロッパーガイドの「AWS Tags in AWS Glue」を参照してください。
-
NotificationProperty
– NotificationProperty オブジェクト。ジョブ通知の設定プロパティを指定します。
-
GlueVersion
– UTF-8 文字列、1~255 バイト長、Custom string pattern #20 に一致。Spark ジョブでは、AWS Glue がジョブで使用できる Apache Spark と Python のバージョンは
GlueVersion
によって決まります。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。Ray ジョブの場合、
GlueVersion
を4.0
以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドのRuntime
パラメータによって決まります。利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue version」を参照してください。
Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。
-
NumberOfWorkers
– 数値 (整数)。ジョブの実行時に割り当てられた、定義済みの
workerType
ワーカー数。 -
WorkerType
– UTF-8 文字列 (有効な値:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
)。ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。
-
G.1X
ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 1 DPU (4 vCPU、16 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。 -
G.2X
ワーカータイプでは、各ワーカーは 128 GB のディスク (約 77 GB の空き容量) を備えた 2 DPU (8 vCPU、32 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。 -
G.4X
ワーカータイプでは、各ワーカーは 256 GB のディスク (約 235 GB の空き容量) を備えた 4 DPU (16 vCPU、64 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、以下の AWS リージョンで使用できます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム)。 -
G.8X
ワーカータイプでは、各ワーカーは 512 GB のディスク (約 487 GB の空き容量) を備えた 8 DPU (32 vCPU、128 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、G.4X
ワーカータイプでサポートされているのと同じ AWS リージョンで使用できます。 -
G.025X
ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 0.25 DPU (2 vCPU、4 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。少量のストリーミングジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 のストリーミングジョブでのみ使用できます。 -
Z.2X
ワーカータイプでは、各ワーカーは 128 GB のディスク (約 120 GB の空き容量) を備えた 2 M-DPU (8 vCPU、64 GB のメモリ) にマッピングされており、オートスケーラーに基づき最大 8 個の Ray ワーカーを提供します。
-
-
CodeGenConfigurationNodes
– キーバリューペアのマップ配列。各キーは、Custom string pattern #42 に適合する UTF-8 文字列です。
各値は CodeGenConfigurationNode オブジェクトです。
Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。
-
ExecutionClass
- UTF-8 文字列。16 バイト長以下 (有効値:FLEX=""
|STANDARD=""
)。ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準の実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。
柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。
AWS Glue バージョン 3.0 以上のジョブの場合のみ、コマンドタイプ
glueetl
でExecutionClass
をFLEX
に設定できます。柔軟な実行クラスは Spark ジョブで使用できます。 -
SourceControlDetails
– SourceControlDetails オブジェクト。ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。
-
MaintenanceWindow
– UTF-8 文字列、「Custom string pattern #30」に一致。このフィールドでは、ストリーミングジョブのメンテナンスウィンドウの曜日と時間を指定します。AWS Glue は定期的にメンテナンスアクティビティを実行します。AWS Glue は、これらのメンテナンスウィンドウ中にストリーミングジョブを再起動する必要があります。
AWS Glue は、指定されたメンテナンスウィンドウの 3 時間以内にジョブを再起動します。たとえば、月曜日の午前 10 時 (GMT) にメンテナンスウィンドウを設定すると、ジョブは午前 10 時 (GMT) から午後 1 時 (GMT) までの間に再起動されます。
-
ProfileName
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。ジョブに関連関連付けられた AWS Glue 使用プロフィールの名前。
レスポンス
-
Name
– UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。このジョブ定義に指定された一意の名前。
エラー
InvalidInputException
IdempotentParameterMismatchException
AlreadyExistsException
InternalServiceException
OperationTimeoutException
ResourceNumberLimitExceededException
ConcurrentModificationException
UpdateJob アクション (Python: update_job)
既存のジョブ定義を更新します。以前のジョブ定義はこの情報によって完全に上書きされます。
リクエスト
-
JobName
– 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。更新するジョブ定義の名前。
-
JobUpdate
– 必須: JobUpdate オブジェクト。ジョブ定義の更新に使用する値を指定します。指定されていない設定は削除されるか、デフォルト値にリセットされます。
-
ProfileName
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。ジョブに関連関連付けられた AWS Glue 使用プロフィールの名前。
レスポンス
-
JobName
– UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。更新されたジョブ定義の名前を返します。
エラー
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
ConcurrentModificationException
GetJob アクション (Python: get_job)
既存のジョブ定義を取得します。
リクエスト
-
JobName
– 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。取得するジョブ定義の名前。
レスポンス
-
Job
– Job オブジェクト。リクエストされたジョブ定義。
エラー
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
GetJobs アクション (Python: get_jobs)
すべての現在のジョブ定義を取得します。
リクエスト
-
NextToken
– UTF-8 文字列。継続トークン (これが継続呼び出しの場合)。
-
MaxResults
– 1~1000 の数値 (整数)。応答の最大サイズ。
応答
-
Jobs
– Job オブジェクトの配列。ジョブ定義のリスト。
-
NextToken
– UTF-8 文字列。継続トークン (一部のジョブ定義がまだ返されていない場合)。
エラー
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
DeleteJob アクション (Python: delete_job)
指定したジョブ定義を削除します。ジョブ定義が見つからない場合、例外はスローされません。
リクエスト
-
JobName
– 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。削除するジョブ定義の名前。
レスポンス
-
JobName
– UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。削除されたジョブ定義の名前。
エラー
InvalidInputException
InternalServiceException
OperationTimeoutException
ListJobs アクション (Python: list_jobs)
この AWS アカウントのすべてのジョブリソース、または指定されたタグを持つリソースの名前を取得します。このオペレーションにより、アカウントで利用可能なリソースとその名前を確認できます。
このオペレーションはオプションの Tags
フィールドを受け取ります。このフィールドを応答のフィルターとして使用すると、タグ付きリソースをグループとして取得できます。タグフィルタリングの使用を選択した場合は、タグが付いたリソースのみが取得されます。
リクエスト
-
NextToken
– UTF-8 文字列。継続トークン (これが継続リクエストの場合)。
-
MaxResults
– 1~1000 の数値 (整数)。返されるリストの最大サイズ。
-
Tags
– キーと値のペアのマップ配列。50 ペア以下。各キーは UTF-8 文字列で、1~128 バイト長です。
各値は UTF-8 文字列で、256 バイト長以下です。
これらのタグ付きリソースのみを返すように指定します。
レスポンス
-
JobNames
– UTF-8 文字列の配列。アカウント内のすべてのジョブの名前、または指定されたタグを持つジョブの名前。
-
NextToken
– UTF-8 文字列。継続トークン (戻されたリストに最後に使用可能なメトリクスが含まれていない場合)。
エラー
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
BatchGetJobs アクション (Python: batch_get_jobs)
指定されたジョブ名のリストのリソースメタデータのリストを返します。ListJobs
オペレーションを呼び出した後で、このオペレーションを呼び出すことで、アクセス許可が付与されているデータにアクセスできます。このオペレーションは、タグを使用するアクセス許可条件を含め、すべての IAM のアクセス許可をサポートします。
リクエスト
-
JobNames
– 必須: UTF-8 文字列の配列。ジョブ名のリスト。これは
ListJobs
操作から返された名前であることもあります。
応答
-
Jobs
– Job オブジェクトの配列。ジョブ定義のリスト。
-
JobsNotFound
– UTF-8 文字列の配列。ジョブの名前のリストが見つかりません。
エラー
InternalServiceException
OperationTimeoutException
InvalidInputException