選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

任務

焦點模式
任務 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

任務 API 說明與在其中建立、更新、刪除或檢視任務相關的資料類型和 API AWS Glue。

資料類型

Job 結構

指定任務定義。

欄位
  • Name – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    您指派給此任務定義的名稱。

  • JobMode – UTF-8 字串 (有效值:SCRIPT="" | VISUAL="" | NOTEBOOK="")。

    描述如何建立任務的模式。有效的 值如下:

    • SCRIPT - 任務是使用 AWS Glue Studio 指令碼編輯器建立的。

    • VISUAL - 任務是使用 AWS Glue Studio 視覺化編輯器建立的。

    • NOTEBOOK - 任務是使用互動式工作階段筆記本建立的。

    JobMode 欄位遺失或 null 時, SCRIPT 會指派為預設值。

  • JobRunQueuingEnabled – 布林值。

    指定是否針對此任務的任務執行啟用任務執行佇列。

    true 值表示任務執行已啟用任務執行佇列。如果為 false 或未填入,則不會考慮將任務執行排入佇列。

    如果此欄位不符合任務執行中設定的值,則會使用任務執行欄位中的值。

  • Description – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    任務的描述。

  • LogUri – UTF-8 字串。

    此欄位保留供日後使用。

  • Role – UTF-8 字串。

    與此任務相關聯 IAM 角色的名稱或 Amazon Resource Name (ARN)。

  • CreatedOn – 時間戳記。

    此任務定義的建立日期和時間。

  • LastModifiedOn – 時間戳記。

    此任務定義上一次修改的時間點。

  • ExecutionPropertyExecutionProperty 物件。

    ExecutionProperty,指定此任務可同時執行的最大數量。

  • CommandJobCommand 物件。

    執行這個任務的 JobCommand

  • DefaultArguments – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    此任務每次執行的預設引數,以名稱值對的方式指定。

    您可以在此指定您自己的任務執行指令碼使用的引數,以及 AWS Glue 本身使用的引數。

    可以記錄任務引數。不要將純文字袐密當做引數傳遞。如果您打算將秘密保留在任務中,請從 AWS Glue 連線 AWS Secrets Manager 或其他秘密管理機制擷取秘密。

    如需如何指定和取用自有任務引數的資訊,請參閱本開發人員指南中的使用 Python 呼叫 AWS Glue API 主題。

    如需有關設定 Spark 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Special Parameters Used by AWS Glue 主題。

    如需有關設定 Ray 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Using job parameters in Ray jobs

  • NonOverridableArguments – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    在任務執行中提供任務引數時,此任務未被覆寫的引數,以名稱值對的方式指定。

  • ConnectionsConnectionsList 物件。

    用於此任務的連線。

  • MaxRetries – 數字 (整數)。

    如果 JobRun 失敗,此任務可重試的次數上限。

  • AllocatedCapacity – 數字 (整數)。

    此欄位已作廢。請改用 MaxCapacity

    配置給此任務執行的 AWS Glue 資料處理單位 (DPUs) 數量。您可以分配至少 2 個 DPU,預設值為 10。DPU 是相對的處理能力,包含 4 個 vCPU 的運算容量和 16 GB 的記憶體。如需詳細資訊,請參閱 AWS Glue 定價頁面

  • Timeout – 數字 (整數),至少為 1。

    任務逾時 (以分鐘為單位)。此為任務執行在停止並進入 TIMEOUT 狀態前可以消耗資源的最大時間。

    任務的逾時值必須少於 7 天或 10080 分鐘。否則,任務會擲回例外狀況。

    當值保留空白時,逾時預設為 2880 分鐘。

    逾時值大於 7 天的任何現有 AWS Glue 任務將預設為 7 天。例如,如果您已為批次任務指定 20 天的逾時,則會在第 7 天停止。

    對於串流任務,如果您已設定維護時段,則會在維護時段 7 天後重新啟動。

  • MaxCapacity – 數字 (雙位數)。

    對於 Glue 1.0 版或更早版本的任務,請使用標準工作者類型,也就是此任務執行時可配置的 AWS Glue 資料處理單位 (DPUs) 數量。DPU 是相對的處理能力,包含 4 個 vCPU 的運算容量和 16 GB 的記憶體。如需詳細資訊,請參閱 AWS Glue 定價頁面

    對於 Glue 2.0 版或更新版本的任務,您不能指定 Maximum capacity。反之,您必須指定 Worker typeNumber of workers

    如果使用 WorkerTypeNumberOfWorkers,請勿設定 MaxCapacity

    可配置給 MaxCapacity 的值取決於您執行的是​ Python shell 任務、Apache Spark ETL 任務或 Apache Spark Streaming ETL 任務:

    • 當您指定 Python shell 任務 (JobCommand.Name="pythonshell") 時,您可以擇一分配 0.0625 或 1 個 DPU。預設為 0.0625 個 DPU。

    • 指定 Apache Spark ETL 任務 (JobCommand.Name="glueetl") 或 Apache Spark Streaming ETL 任務 (JobCommand.Name="gluestreaming") 時,您可以配置 2 到 100 個 DPU。預設值是 10 個 DPU。此任務類型沒有小數的 DPU 分配。

  • WorkerType – UTF-8 字串 (有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    將在任務執行時分配的預先定義工作者類型。接受 Spark 任務的 G.1X、G.2X、G.4X、G.8X 或 G.025X 值。接受 Ray 任務的 Z.2X 值。

    • 對於G.1X工作者類型,每個工作者映射到具有 94GB磁碟的 1 個 DPU (4 個 vCPUs,16 GB 記憶體),並為每個工作者提供 1 個執行器。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.2X工作者類型,每個工作者映射到具有 138GB磁碟的 2 個 DPU (8 個 vCPUs,32 GB 記憶體),並為每個工作者提供 1 個執行器。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.4X工作者類型,每個工作者對應到具有 256 GB 磁碟的 4 個 DPU (16 個 vCPUs、64 GB 記憶體),並為每個工作者提供 1 個執行器。 256GB 我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此工作者類型僅適用於下列 AWS 區域中的 3.0 AWS Glue 版或更新版本 Spark ETL 任務:美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭) 和歐洲 (斯德哥爾摩)。

    • 對於G.8X工作者類型,每個工作者對應到具有 512 GB 磁碟的 8 個 DPU (32 個 vCPUs,512GB 記憶體),並為每個工作者提供 1 個執行器。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此工作者類型僅適用於 3.0 AWS Glue 版或更新版本的 Spark ETL 任務,適用於與G.4X工作者類型支援的相同 AWS 區域。

    • 對於G.025X工作者類型,每個工作者對應到具有 84 GB 磁碟的 0.25 DPU (2 vCPUs,4 GB 記憶體),並為每個工作者提供 1 個執行器。 84GB 我們建議低容量串流任務採用這種工作者類型。此工作者類型僅適用於 3.0 AWS Glue 版或更新版本的串流任務。

    • 對於Z.2X工作者類型,每個工作者對應到具有 128 GB 磁碟的 2 個 M-DPU (8vCPUs、64 GB 記憶體),並根據自動擴展器提供最多 8 個 Ray 工作者。

  • NumberOfWorkers – 數字 (整數)。

    當任務執行時所配置的已定義 workerType 的工作者數目。

  • SecurityConfiguration – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    與此任務搭配使用的 SecurityConfiguration 結構名稱。

  • NotificationPropertyNotificationProperty 物件。

    指定任務通知的組態屬性。

  • Running – 布林值。

    此欄位保留供日後使用。

  • GlueVersion – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Custom string pattern #47

    在 Spark 任務中, GlueVersion會決定任務中 AWS Glue 可用的 Apache Spark 和 Python 版本。Python 版本指示針對 Spark 類型任務支援的版本。

    Ray 任務應將 GlueVersion 設定為 4.0 或更高版本。不過,Ray 任務中可用的 Ray、Python 和其他程式庫的版本由 Job 命令的 Runtime 參數決定。

    如需可用 AWS Glue 版本和對應 Spark 和 Python 版本的詳細資訊,請參閱 開發人員指南中的 Glue 版本

    建立時未指定 Glue 版本的任務,預設為 Glue 0.9。

  • CodeGenConfigurationNodes – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #58

    每個值都是 CodeGenConfigurationNode 物件。

    Glue Studio 視覺化組件和 Glue Studio 代碼的產生都根據有向無循環圖的表示形式。

  • ExecutionClass – UTF-8 字串,長度不可超過 16 個位元組 (有效值:FLEX="" | STANDARD="")。

    表示任務執行使用的是標準執行類別還是彈性執行類別。標準執行類別非常適合需要快速任務啟動和專用資源的時間敏感型工作負載。

    彈性執行類別適用於開始和完成時間可能會有所變化的時間敏感型任務。

    只有 3.0 版及更高 AWS Glue 版本以及命令類型的任務glueetl,才能ExecutionClass設定為 FLEX。彈性執行類別可用於 Spark 任務。

  • SourceControlDetailsSourceControlDetails 物件。

    任務原始檔控制組態的詳細資訊,可允許與遠端儲存庫雙向同步任務成品。

  • MaintenanceWindow – UTF-8 字串,需符合Custom string pattern #34

    此欄位會指定一週中的一天,以及串流任務維護時段的小時。 會 AWS Glue 定期執行維護活動。在這些維護時段期間, AWS Glue 將需要重新啟動您的串流任務。

    AWS Glue 將在指定的維護時段後 3 小時內重新啟動任務。例如,如果您在 GMT 的星期一上午 10:00 設定維護時段,您的任務將在 GMT 的上午 10:00 到下午 1:00 之間重新啟動。

  • ProfileName – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    與任務相關聯的 AWS Glue 用量描述檔名稱。

ExecutionProperty 結構

任務的執行屬性。

欄位
  • MaxConcurrentRuns – 數字 (整數)。

    一項任務可同時執行的最大數量。預設為 1。達到此閾值時,會傳回錯誤。可指定的最大值由服務限制來控制。

NotificationProperty 結構

指定通知的組態屬性。

欄位
  • NotifyDelayAfter – 數字 (整數),至少為 1。

    任務執行開始後,在傳送任務執行延遲通知之前所要等待的分鐘數。

JobCommand 結構

指定任務執行時執行的程式碼。

欄位
  • Name – UTF-8 字串。

    任務命令的名稱。用於 Apache Spark ETL 任務時,必須使用 glueetl。用於 Python shell 任務時,必須使用 pythonshell。用於 Apache Spark Streaming ETL 任務時,必須是 gluestreaming。對於 Ray 任務,這一定是 glueray

  • ScriptLocation – UTF-8 字串,長度不可超過 400000 個位元組。

    指定指向執行任務指令碼的 Amazon Simple Storage Service (Amazon S3) 路徑。

  • PythonVersion – UTF-8 字串,需符合Custom string pattern #48

    用於執行 Python Shell 任務的 Python 版本。允許的值是 2 或 3。

  • Runtime:UTF-8 字串,長度不可超過 64 個位元組,且需符合 Custom string pattern #33

    在 Ray 任務中,執行期用於指定環境中可用的 Ray、Python 和其他程式庫的版本。此欄位不用於其他任務類型。如需支援的執行期環境值,請參閱《 AWS Glue 開發人員指南》中的支援的 Ray 執行期環境

ConnectionsList 結構

指定任務所使用的連線。

欄位
  • Connections – UTF-8 字串陣列。

    任務所使用連線的清單。

JobUpdate 結構

指定用於更新現有任務定義的資訊。此資訊將完全覆寫之前的任務定義。

欄位
  • JobMode – UTF-8 字串 (有效值:SCRIPT="" | VISUAL="" | NOTEBOOK="")。

    描述如何建立任務的模式。有效的 值如下:

    • SCRIPT - 任務是使用 AWS Glue Studio 指令碼編輯器建立的。

    • VISUAL - 任務是使用 AWS Glue Studio 視覺化編輯器建立的。

    • NOTEBOOK - 任務是使用互動式工作階段筆記本建立的。

    JobMode 欄位遺失或 null 時, SCRIPT 會指派為預設值。

  • JobRunQueuingEnabled – 布林值。

    指定是否針對此任務的任務執行啟用任務執行佇列。

    true 值表示任務執行已啟用任務執行佇列。如果為 false 或未填入,則不會考慮將任務執行排入佇列。

    如果此欄位不符合任務執行中設定的值,則會使用任務執行欄位中的值。

  • Description – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    正在定義的任務說明。

  • LogUri – UTF-8 字串。

    此欄位保留供日後使用。

  • Role – UTF-8 字串。

    與此任務關聯之 IAM 角色的名稱或 Amazon Resource Name (ARN)(必要)。

  • ExecutionPropertyExecutionProperty 物件。

    ExecutionProperty,指定此任務可同時執行的最大數量。

  • CommandJobCommand 物件。

    負責執行此任務的 JobCommand (必要)。

  • DefaultArguments – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    此任務每次執行的預設引數,以名稱值對的方式指定。

    您可以在此指定您自己的任務執行指令碼使用的引數,以及 AWS Glue 本身使用的引數。

    可以記錄任務引數。不要將純文字袐密當做引數傳遞。如果您打算將秘密保留在任務中,請從 AWS Glue 連線 AWS Secrets Manager 或其他秘密管理機制擷取秘密。

    如需如何指定和取用自有任務引數的資訊,請參閱本開發人員指南中的使用 Python 呼叫 AWS Glue API 主題。

    如需有關設定 Spark 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Special Parameters Used by AWS Glue 主題。

    如需有關設定 Ray 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Using job parameters in Ray jobs

  • NonOverridableArguments – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    在任務執行中提供任務引數時,此任務未被覆寫的引數,以名稱值對的方式指定。

  • ConnectionsConnectionsList 物件。

    用於此任務的連線。

  • MaxRetries – 數字 (整數)。

    如果此任務失敗,可重試的次數上限。

  • AllocatedCapacity – 數字 (整數)。

    此欄位已作廢。請改用 MaxCapacity

    要配置給此任務的 AWS Glue 資料處理單位 (DPUs) 數量。您可以分配至少 2 個 DPU,預設值為 10。DPU 是相對的處理能力,包含 4 個 vCPU 的運算容量和 16 GB 的記憶體。如需詳細資訊,請參閱 AWS Glue 定價頁面

  • Timeout – 數字 (整數),至少為 1。

    任務逾時 (以分鐘為單位)。此為任務執行在停止並進入 TIMEOUT 狀態前可以消耗資源的最大時間。

    任務的逾時值必須少於 7 天或 10080 分鐘。否則,任務會擲回例外狀況。

    當值保留空白時,逾時預設為 2880 分鐘。

    逾時值大於 7 天的任何現有 AWS Glue 任務將預設為 7 天。例如,如果您已為批次任務指定 20 天的逾時,則會在第 7 天停止。

    對於串流任務,如果您已設定維護時段,則會在維護時段 7 天後重新啟動。

  • MaxCapacity – 數字 (雙位數)。

    對於 Glue 1.0 版或更早版本的任務,請使用標準工作者類型,也就是此任務執行時可配置的 AWS Glue 資料處理單位 (DPUs) 數量。DPU 是相對的處理能力,包含 4 個 vCPU 的運算容量和 16 GB 的記憶體。如需詳細資訊,請參閱 AWS Glue 定價頁面

    對於 Glue 2.0+ 版任務,您不能指定 Maximum capacity。反之,您必須指定 Worker typeNumber of workers

    如果使用 WorkerTypeNumberOfWorkers,請勿設定 MaxCapacity

    可配置給 MaxCapacity 的值取決於您執行的是​ Python shell 任務、Apache Spark ETL 任務或 Apache Spark Streaming ETL 任務:

    • 當您指定 Python shell 任務 (JobCommand.Name="pythonshell") 時,您可以擇一分配 0.0625 或 1 個 DPU。預設為 0.0625 個 DPU。

    • 指定 Apache Spark ETL 任務 (JobCommand.Name="glueetl") 或 Apache Spark Streaming ETL 任務 (JobCommand.Name="gluestreaming") 時,您可以配置 2 到 100 個 DPU。預設值是 10 個 DPU。此任務類型沒有小數的 DPU 分配。

  • WorkerType – UTF-8 字串 (有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    將在任務執行時分配的預先定義工作者類型。接受 Spark 任務的 G.1X、G.2X、G.4X、G.8X 或 G.025X 值。接受 Ray 任務的 Z.2X 值。

    • 對於G.1X工作者類型,每個工作者映射到具有 94GB磁碟的 1 個 DPU (4 個 vCPUs,16 GB 記憶體),並為每個工作者提供 1 個執行器。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.2X工作者類型,每個工作者映射到具有 138GB磁碟的 2 個 DPU (8 個 vCPUs,32 GB 記憶體),並為每個工作者提供 1 個執行器。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.4X工作者類型,每個工作者對應到具有 256 GB 磁碟的 4 個 DPU (16 個 vCPUs、64 GB 記憶體),並為每個工作者提供 1 個執行器。 256GB 我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此工作者類型僅適用於下列 AWS 區域中的 3.0 AWS Glue 版或更新版本 Spark ETL 任務:美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭) 和歐洲 (斯德哥爾摩)。

    • 對於G.8X工作者類型,每個工作者對應到具有 512 GB 磁碟的 8 個 DPU (32 個 vCPUs,512GB 記憶體),並為每個工作者提供 1 個執行器。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此工作者類型僅適用於 3.0 AWS Glue 版或更新版本的 Spark ETL 任務,適用於與G.4X工作者類型支援的相同 AWS 區域。

    • 對於G.025X工作者類型,每個工作者對應到具有 84 GB 磁碟的 0.25 DPU (2 vCPUs,4 GB 記憶體),並為每個工作者提供 1 個執行器。 84GB 我們建議低容量串流任務採用這種工作者類型。此工作者類型僅適用於 3.0 AWS Glue 版或更新版本的串流任務。

    • 對於Z.2X工作者類型,每個工作者對應到具有 128 GB 磁碟的 2 個 M-DPU (8vCPUs、64 GB 記憶體),並根據自動擴展器提供最多 8 個 Ray 工作者。

  • NumberOfWorkers – 數字 (整數)。

    當任務執行時所配置的已定義 workerType 的工作者數目。

  • SecurityConfiguration – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    與此任務搭配使用的 SecurityConfiguration 結構名稱。

  • NotificationPropertyNotificationProperty 物件。

    指定任務通知的組態屬性。

  • GlueVersion – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Custom string pattern #47

    在 Spark 任務中, GlueVersion會決定任務中 AWS Glue 可用的 Apache Spark 和 Python 版本。Python 版本指示針對 Spark 類型任務支援的版本。

    Ray 任務應將 GlueVersion 設定為 4.0 或更高版本。不過,Ray 任務中可用的 Ray、Python 和其他程式庫的版本由 Job 命令的 Runtime 參數決定。

    如需可用 AWS Glue 版本和對應 Spark 和 Python 版本的詳細資訊,請參閱 開發人員指南中的 Glue 版本

    建立時未指定 Glue 版本的任務,預設為 Glue 0.9。

  • CodeGenConfigurationNodes – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #58

    每個值都是 CodeGenConfigurationNode 物件。

    Glue Studio 視覺化組件和 Glue Studio 代碼的產生都根據有向無循環圖的表示形式。

  • ExecutionClass – UTF-8 字串,長度不可超過 16 個位元組 (有效值:FLEX="" | STANDARD="")。

    表示任務執行使用的是標準執行類別還是彈性執行類別。標準執行類別非常適合需要快速的任務啟動和專用資源的時間敏感型工作負載。

    彈性執行類別適用於開始和完成時間可能會有所變化的時間敏感型任務。

    只有 3.0 版及更高 AWS Glue 版本以及命令類型的任務glueetl,才能ExecutionClass設定為 FLEX。彈性執行類別可用於 Spark 任務。

  • SourceControlDetailsSourceControlDetails 物件。

    任務原始檔控制組態的詳細資訊,可允許與遠端儲存庫雙向同步任務成品。

  • MaintenanceWindow – UTF-8 字串,需符合Custom string pattern #34

    此欄位會指定一週中的一天,以及串流任務維護時段的小時。 會 AWS Glue 定期執行維護活動。在這些維護時段期間, AWS Glue 將需要重新啟動您的串流任務。

    AWS Glue 將在指定的維護時段後 3 小時內重新啟動任務。例如,如果您在 GMT 的星期一上午 10:00 設定維護時段,您的任務將在 GMT 的上午 10:00 到下午 1:00 之間重新啟動。

  • ProfileName – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    與任務相關聯的 AWS Glue 用量描述檔名稱。

SourceControlDetails 結構

任務原始檔控制組態的詳細資訊,可允許與遠端儲存庫雙向同步任務成品。

欄位
  • Provider – UTF-8 字串 (有效值:GITHUB | AWS_CODE_COMMIT)。

    遠端儲存庫的提供者。

  • Repository – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組。

    任務成品所在遠端儲存庫的名稱。

  • Owner – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組。

    任務成品所在遠端儲存庫的擁有者。

  • Branch – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組。

    遠端儲存庫中可供自由選用的分支。

  • Folder – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組。

    遠端儲存庫中可供自由選用的資料夾。

  • LastCommitId – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組。

    遠端儲存庫中遞交的最後一個遞交 ID。

  • LastSyncTimestamp – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組。

    最近一次執行任務同步作業的日期和時間。

  • AuthStrategy – UTF-8 字串 (有效值:PERSONAL_ACCESS_TOKEN | AWS_SECRETS_MANAGER)。

    身分驗證的類型,可以是存放在 AWS Secrets Manager 中的身分驗證字符,或個人存取字符。

  • AuthToken – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組。

    授權字符的值。

作業

CreateJob 動作 (Python: create_job)

建立新任務定義。

請求
  • Name必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern

    您指派給此任務定義的名稱。它在您的 帳戶中必須是唯一的。

  • JobMode – UTF-8 字串 (有效值:SCRIPT="" | VISUAL="" | NOTEBOOK="")。

    描述如何建立任務的模式。有效的 值如下:

    • SCRIPT - 任務是使用 AWS Glue Studio 指令碼編輯器建立的。

    • VISUAL - 任務是使用 AWS Glue Studio 視覺化編輯器建立的。

    • NOTEBOOK - 任務是使用互動式工作階段筆記本建立的。

    JobMode 欄位遺失或 null 時, SCRIPT 會指派為預設值。

  • JobRunQueuingEnabled – 布林值。

    指定是否針對此任務的任務執行啟用任務執行佇列。

    true 值表示任務執行已啟用任務執行佇列。如果為 false 或未填入,則不會考慮將任務執行排入佇列。

    如果此欄位不符合任務執行中設定的值,則會使用任務執行欄位中的值。

  • Description – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    正在定義的任務說明。

  • LogUri – UTF-8 字串。

    此欄位保留供日後使用。

  • Role必要:UTF-8 字串。

    與此任務相關聯 IAM 角色的名稱或 Amazon Resource Name (ARN)。

  • ExecutionPropertyExecutionProperty 物件。

    ExecutionProperty,指定此任務可同時執行的最大數量。

  • Command必要:JobCommand 物件。

    執行這個任務的 JobCommand

  • DefaultArguments – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    此任務每次執行的預設引數,以名稱值對的方式指定。

    您可以在此指定您自己的任務執行指令碼使用的引數,以及 AWS Glue 本身使用的引數。

    可以記錄任務引數。不要將純文字袐密當做引數傳遞。如果您打算將秘密保留在任務中,請從 AWS Glue 連線 AWS Secrets Manager 或其他秘密管理機制擷取秘密。

    如需如何指定和取用自有任務引數的資訊,請參閱本開發人員指南中的使用 Python 呼叫 AWS Glue API 主題。

    如需有關設定 Spark 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Special Parameters Used by AWS Glue 主題。

    如需有關設定 Ray 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Using job parameters in Ray jobs

  • NonOverridableArguments – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    在任務執行中提供任務引數時,此任務未被覆寫的引數,以名稱值對的方式指定。

  • ConnectionsConnectionsList 物件。

    用於此任務的連線。

  • MaxRetries – 數字 (整數)。

    如果此任務失敗,可重試的次數上限。

  • AllocatedCapacity – 數字 (整數)。

    此參數已棄用。請改用 MaxCapacity

    要配置給此任務的 AWS Glue 資料處理單位 (DPUs) 數量。您可以分配至少 2 個 DPU,預設值為 10。DPU 是相對的處理能力,包含 4 個 vCPU 的運算容量和 16 GB 的記憶體。如需詳細資訊,請參閱 AWS Glue 定價頁面

  • Timeout – 數字 (整數),至少為 1。

    任務逾時 (以分鐘為單位)。此為任務執行在停止並進入 TIMEOUT 狀態前可以消耗資源的最大時間。

    任務的逾時值必須少於 7 天或 10080 分鐘。否則,任務會擲回例外狀況。

    當值保留空白時,逾時預設為 2880 分鐘。

    逾時值大於 7 天的任何現有 AWS Glue 任務將預設為 7 天。例如,如果您已為批次任務指定 20 天的逾時,則會在第 7 天停止。

    對於串流任務,如果您已設定維護時段,則會在維護時段 7 天後重新啟動。

  • MaxCapacity – 數字 (雙位數)。

    對於 Glue 1.0 版或更早版本的任務,請使用標準工作者類型,也就是此任務執行時可配置的 AWS Glue 資料處理單位 (DPUs) 數量。DPU 是相對的處理能力,包含 4 個 vCPU 的運算容量和 16 GB 的記憶體。如需詳細資訊,請參閱 AWS Glue 定價頁面

    對於 Glue 2.0+ 版任務,您不能指定 Maximum capacity。反之,您必須指定 Worker typeNumber of workers

    如果使用 WorkerTypeNumberOfWorkers,請勿設定 MaxCapacity

    可配置給 MaxCapacity 的值取決於您執行的是​ Python shell 任務、Apache Spark ETL 任務或 Apache Spark Streaming ETL 任務:

    • 當您指定 Python shell 任務 (JobCommand.Name="pythonshell") 時,您可以擇一分配 0.0625 或 1 個 DPU。預設為 0.0625 個 DPU。

    • 指定 Apache Spark ETL 任務 (JobCommand.Name="glueetl") 或 Apache Spark Streaming ETL 任務 (JobCommand.Name="gluestreaming") 時,您可以配置 2 到 100 個 DPU。預設值是 10 個 DPU。此任務類型沒有小數的 DPU 分配。

  • SecurityConfiguration – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    與此任務搭配使用的 SecurityConfiguration 結構名稱。

  • Tags – 金鑰值對的對應陣列,不超過 50 對。

    每個金鑰均為 UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組。

    每個值都是 UTF-8 字串,長度不可超過 256 個位元組。

    要搭配此任務使用的標籤。您可以使用標籤來限制對於任務的存取情況。如需 中標籤的詳細資訊 AWS Glue,請參閱 開發人員指南中的 AWS 中的標籤 AWS Glue

  • NotificationPropertyNotificationProperty 物件。

    指定任務通知的組態屬性。

  • GlueVersion – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Custom string pattern #47

    在 Spark 任務中, GlueVersion會決定任務中 AWS Glue 可用的 Apache Spark 和 Python 版本。Python 版本指示針對 Spark 類型任務支援的版本。

    Ray 任務應將 GlueVersion 設定為 4.0 或更高版本。不過,Ray 任務中可用的 Ray、Python 和其他程式庫的版本由 Job 命令的 Runtime 參數決定。

    如需可用 AWS Glue 版本和對應 Spark 和 Python 版本的詳細資訊,請參閱 開發人員指南中的 Glue 版本

    建立時未指定 Glue 版本的任務,預設為 Glue 0.9。

  • NumberOfWorkers – 數字 (整數)。

    當任務執行時所配置的已定義 workerType 的工作者數目。

  • WorkerType – UTF-8 字串 (有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    將在任務執行時分配的預先定義工作者類型。接受 Spark 任務的 G.1X、G.2X、G.4X、G.8X 或 G.025X 值。接受 Ray 任務的 Z.2X 值。

    • 對於G.1X工作者類型,每個工作者映射到具有 94GB磁碟的 1 個 DPU (4 個 vCPUs,16 GB 記憶體),並為每個工作者提供 1 個執行器。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.2X工作者類型,每個工作者映射到具有 138GB磁碟的 2 個 DPU (8 個 vCPUs,32 GB 記憶體),並為每個工作者提供 1 個執行器。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.4X工作者類型,每個工作者映射到具有 256GB 磁碟的 4 個 DPU (16 個 vCPUs、64 GB 記憶體),並為每個工作者提供 1 個執行器。 256GB 我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此工作者類型僅適用於下列 AWS 區域中的 3.0 AWS Glue 版或更新版本 Spark ETL 任務:美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭) 和歐洲 (斯德哥爾摩)。

    • 對於G.8X工作者類型,每個工作者對應到具有 512 GB 磁碟的 8 個 DPU (32 個 vCPUs,512GB 記憶體),並為每個工作者提供 1 個執行器。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此工作者類型僅適用於 3.0 AWS Glue 版或更新版本的 Spark ETL 任務,適用於與G.4X工作者類型支援的相同 AWS 區域。

    • 對於G.025X工作者類型,每個工作者映射到具有 84 GB 磁碟的 0.25 DPU (2 個 vCPUs,4 GB 記憶體),並為每個工作者提供 1 個執行器。 84GB 我們建議低容量串流任務採用這種工作者類型。此工作者類型僅適用於 3.0 AWS Glue 版或更新版本的串流任務。

    • 對於Z.2X工作者類型,每個工作者對應到具有 128 GB 磁碟的 2 個 M-DPU (8vCPUs、64 GB 記憶體),並根據自動擴展器提供最多 8 個 Ray 工作者。

  • CodeGenConfigurationNodes – 金鑰值對的映射陣列。

    每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #58

    每個值都是 CodeGenConfigurationNode 物件。

    Glue Studio 視覺化組件和 Glue Studio 代碼的產生都根據有向無循環圖的表示形式。

  • ExecutionClass – UTF-8 字串,長度不可超過 16 個位元組 (有效值:FLEX="" | STANDARD="")。

    表示任務執行使用的是標準執行類別還是彈性執行類別。標準執行類別非常適合需要快速的任務啟動和專用資源的時間敏感型工作負載。

    彈性執行類別適用於開始和完成時間可能會有所變化的時間敏感型任務。

    只有 3.0 版及更高 AWS Glue 版本以及命令類型的任務glueetl,才能ExecutionClass設定為 FLEX。彈性執行類別可用於 Spark 任務。

  • SourceControlDetailsSourceControlDetails 物件。

    任務原始檔控制組態的詳細資訊,可允許與遠端儲存庫雙向同步任務成品。

  • MaintenanceWindow – UTF-8 字串,需符合Custom string pattern #34

    此欄位會指定一週中的一天,以及串流任務維護時段的小時。 會 AWS Glue 定期執行維護活動。在這些維護時段期間, AWS Glue 將需要重新啟動串流任務。

    AWS Glue 將在指定的維護時段後 3 小時內重新啟動任務。例如,如果您在 GMT 的星期一上午 10:00 設定維護時段,您的任務將在 GMT 的上午 10:00 到下午 1:00 之間重新啟動。

  • ProfileName – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    與任務相關聯的 AWS Glue 用量描述檔名稱。

回應
  • Name – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    為此任務定義而提供的唯一名稱。

錯誤
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

UpdateJob 動作 (Python: update_job)

更新現有的任務定義。此資訊將完全覆寫之前的任務定義。

請求
  • JobName必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern

    要更新之任務定義的名稱。

  • JobUpdate必要:JobUpdate 物件。

    指定用於更新任務定義的值。未指定的組態將被移除或重置為預設值。

  • ProfileName – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    與任務相關聯的 AWS Glue 用量描述檔名稱。

回應
  • JobName – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    傳回已更新之任務定義的名稱。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

GetJob 動作 (Python: get_job)

擷取現有的任務定義。

請求
  • JobName必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern

    欲擷取的任務定義的名稱。

回應
  • Job任務 物件。

    要求的任務定義。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobs 動作 (Python: get_jobs)

擷取所有目前的任務定義。

請求
  • NextToken – UTF-8 字串。

    接續符記,如果這是接續呼叫。

  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    回應的大小上限。

回應
  • Jobs – 一個 任務 物件陣列。

    任務定義的清單。

  • NextToken – UTF-8 字串。

    持續符記 (如果尚未傳回所有任務定義)。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

DeleteJob 動作 (Python: delete_job)

刪除指定的任務定義。如果找不到此任務定義,不會擲出例外狀況。

請求
  • JobName必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern

    欲刪除的任務定義的名稱。

回應
  • JobName – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    已刪除之任務定義的名稱。

錯誤
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

ListJobs 動作 (Python: list_jobs)

擷取此 AWS 帳戶中所有任務資源的名稱,或使用指定標籤的資源。您可運用此操作,查看帳戶下有哪些可用資源及其名稱。

此操作會接收您可在回應時做為篩選條件的選用 Tags 欄位,因此已標記的資源可分組進行擷取。如果您選擇使用標籤進行篩選,則此時只會擷取包含該標籤的資源。

請求
  • NextToken – UTF-8 字串。

    接續符記,如果這是接續要求。

  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    所要回傳清單的大小上限。

  • Tags – 金鑰值對的對應陣列,不超過 50 對。

    每個金鑰均為 UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組。

    每個值都是 UTF-8 字串,長度不可超過 256 個位元組。

    指定只傳回包含這些標籤的資源。

回應
  • JobNames – UTF-8 字串陣列。

    這個帳戶下所有任務的名稱,或是使用指定標籤的任務。

  • NextToken – UTF-8 字串。

    接續字元,如果傳回的清單未包含最後一個可用指標。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

BatchGetJobs 動作 (Python: batch_get_jobs)

為指定的動作名稱清單,傳回資源中繼資料的清單。呼叫 ListJobs 操作之後,您便可以呼叫此操作來存取您已授與許可的資料。此操作支援所有 IAM 許可,包括使用標籤的許可條件。

請求
  • JobNames必要:UTF-8 字串陣列。

    任務名稱清單,可能是從 ListJobs 操作傳回的名稱。

回應
  • Jobs – 一個 任務 物件陣列。

    任務定義的清單。

  • JobsNotFound – UTF-8 字串陣列。

    找不到任務名稱清單。

錯誤
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

下一個主題:

任務執行

上一個主題:

任務
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。