AWS Glue 的已知問題 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 的已知問題

請注意,AWS Glue 具有下列已知問題。

防止跨任務資料存取

假設單一 AWS Glue 帳戶中有兩個 AWS Spark 任務,且每個任務會在不同的 AWS Glue Spark 叢集中執行。這些任務會使用 AWS Glue 連線功能來存取相同虛擬私有雲端 (VPC) 中的資源。在這種情況下,其中一個叢集所執行的任務或許能讀取來自另一個叢集所執行任務的資料。

這種情況可用下圖表示。

Cluster-1 中的 AWS Glue 任務 Job-1 和 Cluster-2 中的 Job-2 在 VPC 內與 Subnet-1 中的 Amazon Redshift 執行個體通訊。而資料正從 Amazon S3 Bucket-1 及 Bucket-2 傳輸至 Amazon Redshift。

在該圖中,AWS Glue Job-1 會在 Cluster-1 中執行,而 Job-2 則會在 Cluster-2 中執行。兩個任務所使用的是同一個 Amazon Redshift 執行個體,其位於 VPC 的 Subnet-1 中。Subnet-1 可能是公有或私有子網路。

Job-1 會轉換來自 Amazon Simple Storage Service (Amazon S3) Bucket-1 的資料,並將該資料寫入 Amazon Redshift。Job-2 則會以同樣方式來處理 Bucket-2 中的資料。Job-1 使用的是 AWS Identity and Access Management (IAM) 角色 Role-1 (圖中未顯示),其可提供 Bucket-1 的存取權限。Job-2 使用的是 Role-2 (圖中未顯示),可提供 Bucket-2 的存取權限。

這些任務可經由網路路徑與彼此的叢集通訊,進而存取對方的資料。舉例而言,Job-2 可以存取 Bucket-1 中的資料。這個路徑在圖中會顯示為紅色。

若要避免這種情況,建議您為 Job-1Job-2 連接不同的安全組態。一旦連接安全組態,系統就可藉由 AWS Glue 建立的憑證來封鎖跨任務資料存取操作。安全組態可以是「虛擬」組態。也就是說,您可以在不啟用 Amazon S3 資料、Amazon CloudWatch 資料或任務書籤加密的情況下,建立安全組態。這三種加密選項皆可停用。

如需安全組態的相關資訊,請參閱對 AWS Glue 寫入的資料加密

連接安全組態至任務
  1. 開啟位於 https://console.aws.amazon.com/glue/ 的 AWS Glue 主控台。

  2. 在任務的 Configure the job properties (設定任務屬性) 頁面上,展開 Security configuration, script libraries, and job parameters (安全組態、指令碼程式庫和工作屬性) 區段。

  3. 在清單中選取安全組態。