本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
請注意,AWS Glue 具有下列已知問題。
防止跨任務資料存取
請考慮您在單一 AWS 帳戶中有兩個 AWS Glue Spark 任務的情況,每個任務都在個別的 AWS Glue Spark 叢集中執行。這些任務會使用 AWS Glue 連線功能來存取相同虛擬私有雲端 (VPC) 中的資源。在這種情況下,其中一個叢集所執行的任務或許能讀取來自另一個叢集所執行任務的資料。
這種情況可用下圖表示。

在該圖中,AWS Glue Job-1
會在 Cluster-1
中執行,而 Job-2 則會在 Cluster-2
中執行。兩個任務所使用的是同一個 Amazon Redshift 執行個體,其位於 VPC 的 Subnet-1
中。Subnet-1
可能是公有或私有子網路。
Job-1
正在從 Amazon Simple Storage Service (Amazon S3) 轉換資料,Bucket-1
並將資料寫入 Amazon Redshift。 與 中的資料Job-2
相同Bucket-2
。 Job-1
使用 AWS Identity and Access Management (IAM) 角色 Role-1
(未顯示),其可存取 Bucket-1
。 Job-2
使用 Role-2
(未顯示),其可存取 Bucket-2
。
這些任務可經由網路路徑與彼此的叢集通訊,進而存取對方的資料。舉例而言,Job-2
可以存取 Bucket-1
中的資料。這個路徑在圖中會顯示為紅色。
若要避免這種情況,建議您為 Job-1
與 Job-2
連接不同的安全組態。一旦連接安全組態,系統就可藉由 AWS Glue 建立的憑證來封鎖跨任務資料存取操作。安全組態可以是「虛擬」組態。也就是說,您可以在不啟用 Amazon S3 資料、Amazon CloudWatch 資料或任務書籤加密的情況下,建立安全組態。這三種加密選項皆可停用。
如需安全組態的相關資訊,請參閱對 AWS Glue寫入的資料加密。
連接安全組態至任務
在 https://https://console.aws.amazon.com/glue/
開啟 AWS Glue 主控台。 -
在任務的 Configure the job properties (設定任務屬性) 頁面上,展開 Security configuration, script libraries, and job parameters (安全組態、指令碼程式庫和工作屬性) 區段。
-
在清單中選取安全組態。