AWS Glue の既知の問題 - AWS Glue

AWS Glue の既知の問題

AWS Glue には以下の既知の問題があります。

クロスジョブデータアクセスの防止

単一の AWS アカウントに 2 つの AWS Glue Spark ジョブがあり、それぞれが別の AWS Glue Spark クラスターで実行されている状況を考慮します。ジョブは、AWS Glue 接続を使用して、同じ Virtual Private Cloud (VPC) 内のリソースにアクセスしています。この状況では、一方のクラスターで実行されているジョブが、もう一方のクラスターで実行されているジョブのデータにアクセスできる可能性があります。

次の図は、この状況の例を示しています。

Cluster-1 の AWS Glue ジョブ Job-1 および Cluster-2 の Job-2 が、VPC 内の Subnet-1 の Amazon Redshift インスタンスと通信しています。データは Amazon S3 Bucket-1 および Bucket-2 から Amazon Redshift に転送されています。

この図では、AWS Glue Job-1Cluster-1 で実行され 、Job-2 は Cluster-2 で実行されています。どちらのジョブも、VPC の Subnet-1 に存在する Amazon Redshift の同じインスタンスを使用しています。Subnet-1 は、パブリックサブネットであることもプライベートサブネットであることもあります。

Job-1 は、Amazon Simple Storage Service (Amazon S3) Bucket-1 からデータを変換し、データを Amazon Redshift に書き込んでいます。Job-2Bucket-2 のデータで同じ処理を行っています。Job-1 は、Bucket-1 へのアクセスを許可する AWS Identity and Access Management (IAM) ロール Role-1 (非表示) を使用しています。Job-2 は、Bucket-2 へのアクセスを許可する Role-2 (非表示) を使用しています。

この 2 つのジョブにはネットワークパスがあり、相互のクラスターと通信し、相互のデータにアクセスできるようになっています。たとえば、Job-2Bucket-1 のデータにアクセスできます。この図では、これは赤色のパスとして示されています。

このような状況を回避するため、Job-1 および Job-2 に異なるセキュリティ設定をアタッチすることをお勧めします。セキュリティ設定をアタッチすることで、データへのクロスジョブアクセスは AWS Glue が作成する証明書によってブロックされます。セキュリティ設定は、ダミー設定にすることができます。つまり、Amazon S3 データ、Amazon CloudWatch データ、ジョブのブックマークの暗号化を有効にすることなく、セキュリティ設定を作成できます。3 つの暗号化オプションはすべて無効にできます。

セキュリティ設定の詳細については、「AWS Glue​ によって書き込まれたデータの暗号化」を参照してください。

セキュリティ設定をジョブにアタッチするには
  1. https://console.aws.amazon.com/glue/ で AWS Glue コンソール を開きます。

  2. ジョブの [Configure the job properties (ジョブプロパティの設定)] ページで、[セキュリティ設定、スクリプトライブラリおよびジョブパラメータ] セクションを展開します。

  3. リストでセキュリティ設定を選択します。