AWS Glue の既知の問題
AWS Glue には以下の既知の問題があります。
トピック
クロスジョブデータアクセスの防止
単一の AWS アカウントに 2 つの AWS Glue Spark ジョブがあり、それぞれが別の AWS Glue Spark クラスターで実行されている状況を考慮します。ジョブは、AWS Glue 接続を使用して、同じ Virtual Private Cloud (VPC) 内のリソースにアクセスしています。この状況では、一方のクラスターで実行されているジョブが、もう一方のクラスターで実行されているジョブのデータにアクセスできる可能性があります。
次の図は、この状況の例を示しています。
この図では、AWS Glue Job-1
は Cluster-1
で実行され 、Job-2 は Cluster-2
で実行されています。どちらのジョブも、VPC の Subnet-1
に存在する Amazon Redshift の同じインスタンスを使用しています。Subnet-1
は、パブリックサブネットであることもプライベートサブネットであることもあります。
Job-1
は、Amazon Simple Storage Service (Amazon S3) Bucket-1
からデータを変換し、データを Amazon Redshift に書き込んでいます。Job-2
は Bucket-2
のデータで同じ処理を行っています。Job-1
は、Bucket-1
へのアクセスを許可する AWS Identity and Access Management (IAM) ロール Role-1
(非表示) を使用しています。Job-2
は、Bucket-2
へのアクセスを許可する Role-2
(非表示) を使用しています。
この 2 つのジョブにはネットワークパスがあり、相互のクラスターと通信し、相互のデータにアクセスできるようになっています。たとえば、Job-2
は Bucket-1
のデータにアクセスできます。この図では、これは赤色のパスとして示されています。
このような状況を回避するため、Job-1
および Job-2
に異なるセキュリティ設定をアタッチすることをお勧めします。セキュリティ設定をアタッチすることで、データへのクロスジョブアクセスは AWS Glue が作成する証明書によってブロックされます。セキュリティ設定は、ダミー設定にすることができます。つまり、Amazon S3 データ、Amazon CloudWatch データ、ジョブのブックマークの暗号化を有効にすることなく、セキュリティ設定を作成できます。3 つの暗号化オプションはすべて無効にできます。
セキュリティ設定の詳細については、「AWS Glue によって書き込まれたデータの暗号化」を参照してください。
セキュリティ設定をジョブにアタッチするには
https://console.aws.amazon.com/glue/
で AWS Glue コンソール を開きます。 -
ジョブの [Configure the job properties (ジョブプロパティの設定)] ページで、[セキュリティ設定、スクリプトライブラリおよびジョブパラメータ] セクションを展開します。
-
リストでセキュリティ設定を選択します。