開發端點 API - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

開發端點 API

開發端點 API 描述了與使用自定義進行測試相關的 AWS Glue API DevEndpoint。

資料類型

DevEndpoint 結構

開發端點,可供開發人員從遠端進行除錯、轉換及載入 (ETL) 指令碼。

欄位
  • EndpointName – UTF-8 字串。

    DevEndpoint 的名稱。

  • RoleArn – UTF-8 字串,需符合AWS IAM ARN string pattern

    DevEndpoint 中所使用 IAM 角色的 Amazon Resource Name (ARN)。

  • SecurityGroupIds – UTF-8 字串陣列。

    DevEndpoint 中所使用的安全群組識識別碼清單。

  • SubnetId – UTF-8 字串。

    DevEndpoint 的子網路 ID。

  • YarnEndpointAddress – UTF-8 字串。

    DevEndpoint 所用的 YARN 端點地址。

  • PrivateAddress – UTF-8 字串。

    此為當 DevEndpoint 是在 VPC 中建立,透過 VPC 存取 DevEndpoint 時私有 IP 地址。PrivateAddress 欄位只會在您於 VPC 中建立 DevEndpoint 時出現。

  • ZeppelinRemoteSparkInterpreterPort – 數字 (整數)。

    供遠端 Apache Spark 解譯器使用的 Apache Zeppelin 通訊埠。

  • PublicAddress – UTF-8 字串。

    DevEndpoint 所用的公有 IP 地址。只有當您建立非虛擬私有雲端 (VPC) PublicAddress 時,DevEndpoint 欄位才會出現。

  • Status – UTF-8 字串。

    DevEndpoint 的目前狀態。

  • WorkerType – UTF-8 字串 (有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    配置給開發端點的預先定義工作者類型。可接受值為標準、G.1X 或 G.2X

    • 用於 Standard 工作者類型時,每個工作者提供 4 個 vCPU、16 GB 的記憶體和 50 GB 磁碟,以及每個工作者 2 個執行器。

    • 用於 G.1X 工作者類型時,每個工作者會映射到 1 個 DPU (4 vCPU、16 GB 的記憶體和 64 GB 磁碟),並為每個工作者提供 1 個執行器。我們建議記憶體密集型任務採用這種工作者類型。

    • 用於 G.2X 工作者類型時,每個工作者會映射到 2 個 DPU (8 vCPU、32 GB 的記憶體和 128 GB 磁碟),並為每個工作者提供 1 個執行器。我們建議記憶體密集型任務採用這種工作者類型。

    已知問題:使用 G.2X WorkerType 組態建立開發端點時,開發端點的 Spark 驅動程式將在 4 個 vCPU、16 GB 記憶體和 64 GB 磁碟上執行。

  • GlueVersion – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Custom string pattern #20

    Glue 版本確定了阿帕奇星火和 Python 的 AWS Glue 支持的版本。Python 版本會指示在開發端點上執行您 ETL 指令碼時支援的版本。

    如需有關可用版 AWS Glue 本以及對應 Spark 和 Python 版本的詳細資訊,請參閱開發人員指南中的 Glue 版本。

    在沒有指定 Glue 版本情況下建立的開發端點,預設為 Glue 0.9。

    您可以使用 CreateDevEndpointUpdateDevEndpoint API 中的 Arguments 參數,指定開發端點的 Python 版本支援。如果未提供引數,版本預設為 Python 2。

  • NumberOfWorkers – 數字 (整數)。

    配置給開發端點之已定義 workerType 的工作者數目。

    您可以為 G.1X 定義的工作者數目上限是 299,為 G.2X 定義的數目上限則是 149。

  • NumberOfNodes – 數字 (整數)。

    配置給此DevEndpoint單元的 AWS Glue 資料處理單元 (DPU) 數目。

  • AvailabilityZone – UTF-8 字串。

    DevEndpoint它所在的 AWS 可用區域。

  • VpcId – UTF-8 字串。

    DevEndpoint 所用虛擬私有雲端 (VPC) 的 ID。

  • ExtraPythonLibsS3Path – UTF-8 字串。

    指向 Amazon S3 儲存貯體中一或多個 Python 程式庫的路徑,此儲存貯體應載入您的 DevEndpoint。多個值必須是以英文逗號分隔的完整路徑。

    注意

    您只能搭配純 Python 程式庫使用 DevEndpoint。目前尚未支援使用 C 擴充功能的程式庫 (例如 pandas Python 資料分析程式庫)。

  • ExtraJarsS3Path – UTF-8 字串。

    指向 S3 儲存貯體中一或多個 Java .jar 檔案的路徑,該 S3 儲存貯體應載入您的 DevEndpoint

    注意

    您只能搭配純 Java/Scala 程式庫使用 DevEndpoint

  • FailureReason – UTF-8 字串。

    DevEndpoint 目前故障的原因。

  • LastUpdateStatus – UTF-8 字串。

    上次更新的狀態。

  • CreatedTimestamp – 時間戳記。

    建立此 DevEndpoint 項目的時間點。

  • LastModifiedTimestamp – 時間戳記。

    DevEndpoint 上次修改的時間點。

  • PublicKey – UTF-8 字串。

    DevEndpoint 用來進行身分驗證所使用的公有金鑰。由於推薦使用屬性是公用金鑰,此屬性的提供是為了回溯相容性。

  • PublicKeys – UTF-8 字串的陣列,不可超過 5 個字串。

    DevEndpoints 用來進行身分驗證所使用的公有金鑰清單。此屬性的使用優先於單一公有公鑰,因為公有金鑰允許您為每個用戶端使用不同的私有金鑰。

    注意

    如果您之前是搭配公有金鑰建立端點,則您必須移除該金鑰,才能設定的公有金鑰。搭配 deletePublicKeys 屬性中的公用金鑰,以及 addPublicKeys 屬性清單中的新金鑰清單,呼叫 UpdateDevEndpoint API 操作。

  • SecurityConfiguration – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    可與此 DevEndpoint 搭配使用的 SecurityConfiguration 結構名稱。

  • Arguments – 金鑰值對的映射陣列,不超過 100 對。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    用於設定 DevEndpoint 的引數映射。

    有效引數為:

    • "--enable-glue-datacatalog": ""

    您可以使用 CreateDevEndpointUpdateDevEndpoint API 中的 Arguments 參數,指定開發端點的 Python 版本支援。如果未提供引數,版本預設為 Python 2。

DevEndpointCustomLibraries 結構

要載入開發端點的自訂程式庫。

欄位
  • ExtraPythonLibsS3Path – UTF-8 字串。

    至 Amazon Simple Storage Service (Amazon S3) 儲存貯體中一個或多個 Python 程式庫的路徑,該儲存貯體應載入您的 DevEndpoint。多個值必須是以英文逗號分隔的完整路徑。

    注意

    您只能搭配純 Python 程式庫使用 DevEndpoint。目前尚未支援使用 C 擴充功能的程式庫 (例如 pandas Python 資料分析程式庫)。

  • ExtraJarsS3Path – UTF-8 字串。

    指向 S3 儲存貯體中一或多個 Java .jar 檔案的路徑,該 S3 儲存貯體應載入您的 DevEndpoint

    注意

    您只能搭配純 Java/Scala 程式庫使用 DevEndpoint

作業

CreateDevEndpoint 行動(Python:創建開發端點)

建立新的開發端點。

請求
  • EndpointName必要:UTF-8 字串。

    要指派給新 DevEndpoint 的名稱。

  • RoleArn必要:UTF-8 字串,需符合AWS IAM ARN string pattern

    DevEndpoint 的 IAM 角色。

  • SecurityGroupIds – UTF-8 字串陣列。

    安全群組的安全群組 ID,這些安全群組是要給新的 DevEndpoint 使用。

  • SubnetId – UTF-8 字串。

    DevEndpoint 要使用的子網路 ID。

  • PublicKey – UTF-8 字串。

    DevEndpoint 用來進行身分驗證所使用的公有金鑰。由於推薦使用屬性是公用金鑰,此屬性的提供是為了回溯相容性。

  • PublicKeys – UTF-8 字串的陣列,不可超過 5 個字串。

    該開發端點用來進行身分驗證所使用的公有金鑰清單。此屬性的使用優先於單一公有公鑰,因為公有金鑰允許您為每個用戶端使用不同的私有金鑰。

    注意

    如果您之前是搭配公有金鑰建立端點,則您必須移除該金鑰,才能設定的公有金鑰。搭配 deletePublicKeys 屬性中的公用金鑰,以及 addPublicKeys 屬性清單中的新金鑰清單,呼叫 UpdateDevEndpoint API。

  • NumberOfNodes – 數字 (整數)。

    要配置給此DevEndpoint單元的 AWS Glue 資料處理單元 (DPU) 數目。

  • WorkerType – UTF-8 字串 (有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    配置給開發端點的預先定義工作者類型。可接受值為標準、G.1X 或 G.2X

    • 用於 Standard 工作者類型時,每個工作者提供 4 個 vCPU、16 GB 的記憶體和 50 GB 磁碟,以及每個工作者 2 個執行器。

    • 用於 G.1X 工作者類型時,每個工作者會映射到 1 個 DPU (4 vCPU、16 GB 的記憶體和 64 GB 磁碟),並為每個工作者提供 1 個執行器。我們建議記憶體密集型任務採用這種工作者類型。

    • 用於 G.2X 工作者類型時,每個工作者會映射到 2 個 DPU (8 vCPU、32 GB 的記憶體和 128 GB 磁碟),並為每個工作者提供 1 個執行器。我們建議記憶體密集型任務採用這種工作者類型。

    已知問題:使用 G.2X WorkerType 組態建立開發端點時,開發端點的 Spark 驅動程式將在 4 個 vCPU、16 GB 記憶體和 64 GB 磁碟上執行。

  • GlueVersion – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Custom string pattern #20

    Glue 版本確定了阿帕奇星火和 Python 的 AWS Glue 支持的版本。Python 版本會指示在開發端點上執行您 ETL 指令碼時支援的版本。

    如需有關可用版 AWS Glue 本以及對應 Spark 和 Python 版本的詳細資訊,請參閱開發人員指南中的 Glue 版本。

    在沒有指定 Glue 版本情況下建立的開發端點,預設為 Glue 0.9。

    您可以使用 CreateDevEndpointUpdateDevEndpoint API 中的 Arguments 參數,指定開發端點的 Python 版本支援。如果未提供引數,版本預設為 Python 2。

  • NumberOfWorkers – 數字 (整數)。

    配置給開發端點之已定義 workerType 的工作者數目。

    您可以為 G.1X 定義的工作者數目上限是 299,為 G.2X 定義的數目上限則是 149。

  • ExtraPythonLibsS3Path – UTF-8 字串。

    指向 Amazon S3 儲存貯體中一或多個 Python 程式庫的路徑,此儲存貯體應載入您的 DevEndpoint。多個值必須是以英文逗號分隔的完整路徑。

    注意

    您只能搭配純 Python 程式庫使用 DevEndpoint。目前尚未支援使用 C 延伸模組的程式庫 (例如 pandas Python 資料分析程式庫)。

  • ExtraJarsS3Path – UTF-8 字串。

    指向 S3 儲存貯體中一或多個 Java .jar 檔案的路徑,該 S3 儲存貯體應載入您的 DevEndpoint

  • SecurityConfiguration – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    可與此 DevEndpoint 搭配使用的 SecurityConfiguration 結構名稱。

  • Tags – 金鑰值對的對應陣列,不超過 50 對。

    每個金鑰均為 UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組。

    每個值都是 UTF-8 字串,長度不可超過 256 個位元組。

    要搭配此 DevEndpoint 使用的標籤。您可以使用標籤來限制對 DevEndpoint. 如需中標籤的詳細資訊 AWS Glue,請參閱開發人員指南AWS Glue中的「AWS 標籤」。

  • Arguments – 金鑰值對的映射陣列,不超過 100 對。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    用於設定 DevEndpoint 的引數映射。

回應
  • EndpointName – UTF-8 字串。

    指派給新的 DevEndpoint 的名稱。

  • Status – UTF-8 字串。

    新的 DevEndpoint 的目前狀態。

  • SecurityGroupIds – UTF-8 字串陣列。

    指派給新的 DevEndpoint 的安全群組。

  • SubnetId – UTF-8 字串。

    指派給新 DevEndpoint 的子網路 ID。

  • RoleArn – UTF-8 字串,需符合AWS IAM ARN string pattern

    指派給新 DevEndpoint 之角色的 Amazon Resource Name (ARN)。

  • YarnEndpointAddress – UTF-8 字串。

    DevEndpoint 所用 YARN 端點的地址。

  • ZeppelinRemoteSparkInterpreterPort – 數字 (整數)。

    供遠端 Apache Spark 解譯器使用的 Apache Zeppelin 通訊埠。

  • NumberOfNodes – 數字 (整數)。

    配置給此 DevEndpoint單元的 AWS Glue 資料處理單元 (DPU) 數目。

  • WorkerType – UTF-8 字串 (有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    配置給開發端點的預先定義工作者類型。可能是標準、G.1X 或 G.2X 的值。

  • GlueVersion – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Custom string pattern #20

    Glue 版本確定了阿帕奇星火和 Python 的 AWS Glue 支持的版本。Python 版本會指示在開發端點上執行您 ETL 指令碼時支援的版本。

    如需有關可用版 AWS Glue 本以及對應 Spark 和 Python 版本的詳細資訊,請參閱開發人員指南中的 Glue 版本。

  • NumberOfWorkers – 數字 (整數)。

    配置給開發端點之已定義 workerType 的工作者數目。

  • AvailabilityZone – UTF-8 字串。

    DevEndpoint它所在的 AWS 可用區域。

  • VpcId – UTF-8 字串。

    DevEndpoint 所用虛擬私有雲端 (VPC) 的 ID。

  • ExtraPythonLibsS3Path – UTF-8 字串。

    至 S3 儲存貯體中一個或多個 Python 程式庫的路徑,該 S3 儲存貯體將載入您的 DevEndpoint

  • ExtraJarsS3Path – UTF-8 字串。

    至 S3 儲存貯體中一個或多個 Java .jar 檔案的路徑,該 S3 儲存貯體將載入您的 DevEndpoint

  • FailureReason – UTF-8 字串。

    DevEndpoint 目前故障的原因。

  • SecurityConfiguration – UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern

    可與此 DevEndpoint 搭配使用的 SecurityConfiguration 結構名稱。

  • CreatedTimestamp – 時間戳記。

    DevEndpoint 建立的時間點。

  • Arguments – 金鑰值對的對應陣列,不超過 100 對。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    用於設定 DevEndpoint 的引數映射。

    有效引數為:

    • "--enable-glue-datacatalog": ""

    您可以使用 CreateDevEndpointUpdateDevEndpoint API 中的 Arguments 參數,指定開發端點的 Python 版本支援。如果未提供引數,版本預設為 Python 2。

錯誤
  • AccessDeniedException

  • AlreadyExistsException

  • IdempotentParameterMismatchException

  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

  • ValidationException

  • ResourceNumberLimitExceededException

UpdateDevEndpoint 行動(Python:更新 _ 開發端點)

更新指定的開發端點。

請求
  • EndpointName必要:UTF-8 字串。

    要更新之 DevEndpoint 的名稱。

  • PublicKey – UTF-8 字串。

    DevEndpoint 將使用的公有金鑰。

  • AddPublicKeys – UTF-8 字串的陣列,不可超過 5 個字串。

    DevEndpoint 將使用的公有金鑰清單。

  • DeletePublicKeys – UTF-8 字串的陣列,不可超過 5 個字串。

    要從 DevEndpoint 刪除的公有金鑰清單。

  • CustomLibrariesDevEndpointCustomLibraries 物件。

    要載入 DevEndpoint 中的自訂 Python 或 Java 程式庫。

  • UpdateEtlLibraries – 布林值。

    如果要載入開發端點中的自訂程式庫的清單需要更新,此值為 True,如果不需更新則為 False

  • DeleteArguments – UTF-8 字串陣列。

    要從用於設定 DevEndpoint 之引數映射中刪除的引數金鑰清單。

  • AddArguments – 金鑰值對的對應陣列,不超過 100 對。

    每個金鑰都是 UTF-8 字串。

    每個值都是 UTF-8 字串。

    要新增用於設定 DevEndpoint 之引數映射的引數映射。

    有效引數為:

    • "--enable-glue-datacatalog": ""

    您可以使用 CreateDevEndpointUpdateDevEndpoint API 中的 Arguments 參數,指定開發端點的 Python 版本支援。如果未提供引數,版本預設為 Python 2。

回應
  • 無回應參數。

錯誤
  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

  • ValidationException

DeleteDevEndpoint 行動(Python:刪除開發端點)

刪除指定的開發端點。

請求
  • EndpointName必要:UTF-8 字串。

    DevEndpoint 的名稱。

回應
  • 無回應參數。

錯誤
  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

GetDevEndpoint 行動(Python:獲取 _ 開發端點)

擷取關於所指定開發端點的資訊。

注意

當您在虛擬私有雲端 (VPC) 建立開發端點時, AWS Glue 只會傳回一個私有 IP 地址,不會填入公有 IP 地址。當您建立非 VPC 開發端點時,只會 AWS Glue 傳回公用 IP 位址。

請求
  • EndpointName必要:UTF-8 字串。

    用於擷取資訊之 DevEndpoint 的名稱。

回應
  • DevEndpointDevEndpoint 物件。

    DevEndpoint 定義。

錯誤
  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

GetDevEndpoints 行動(Python:獲取開發端點)

擷取此 AWS 帳戶中的所有開發端點。

注意

當您在虛擬私有雲端 (VPC)建立開發端點時, AWS Glue 只會傳回一個私有 IP 地址,不會填入公有 IP 地址。當您建立非 VPC 開發端點時,只會 AWS Glue 傳回公用 IP 位址。

請求
  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    所要回傳資訊的檔案大小上限。

  • NextToken – UTF-8 字串。

    接續符記,如果這是接續呼叫。

回應
  • DevEndpoints – 一個 DevEndpoint 物件陣列。

    DevEndpoint 定義的清單。

  • NextToken – UTF-8 字串。

    持續符記 (如果尚未傳回所有 DevEndpoint 定義)。

錯誤
  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

BatchGetDevEndpoints 行動(Python:批處理開發端點)

為指定的開發端點名稱清單,傳回資源中繼資料的清單。呼叫 ListDevEndpoints 操作之後,您便可以呼叫此操作來存取您已授與許可的資料。此操作支援所有 IAM 許可,包括使用標籤的許可條件。

請求
  • customerAccountId – UTF-8 字串。

    AWS 帳戶識別碼。

  • DevEndpointNames必要:UTF-8 字串的陣列,不可小於 1 或超過 25 個字串。

    DevEndpoint 名稱清單,可能是從 ListDevEndpoint 操作傳回的名稱。

回應
  • DevEndpoints – 一個 DevEndpoint 物件陣列。

    DevEndpoint 定義的清單。

  • DevEndpointsNotFound – UTF-8 字串的陣列,不可小於 1 或超過 25 個字串。

    找不到DevEndpoints 清單。

錯誤
  • AccessDeniedException

  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

ListDevEndpoints 行動(Python:列表開發端點)

擷取這個 AWS 帳戶下所有 DevEndpoint 資源的名稱,或是包含指定標籤的資源。您可運用此操作,查看帳戶下有哪些可用資源及其名稱。

此操作會接收您可在回應時做為篩選條件的選用 Tags 欄位,因此已標記的資源可分組進行擷取。如果您選擇使用標籤進行篩選,則此時只會擷取包含該標籤的資源。

請求
  • NextToken – UTF-8 字串。

    接續符記,如果這是接續要求。

  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    所要回傳清單的大小上限。

  • Tags – 金鑰值對的對應陣列,不超過 50 對。

    每個金鑰均為 UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組。

    每個值都是 UTF-8 字串,長度不可超過 256 個位元組。

    指定只傳回包含這些標籤的資源。

回應
  • DevEndpointNames – UTF-8 字串陣列。

    這個帳戶下所有 DevEndpoint 的名稱,或是使用指定標籤的 DevEndpoint

  • NextToken – UTF-8 字串。

    接續字元,如果傳回的清單未包含最後一個可用指標。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException