抽出、変換、ロード (ETL) ジョブを実行するには,AWS Glue がデータストアにアクセスできる必要があります。ジョブをVirtual Private Cloud (VPC) サブネットで実行する必要がない場合 (例えば、Amazon S3 から Amazon S3 へのデータ変換など)、追加の設定は必要ありません。
ジョブを VPC サブネットで実行する必要がある場合 (プライベートサブネット内の JDBC データストアからのデータの変換など)、AWS Glue は、ジョブを VPC 内の他のリソースに安全に接続できるようにする Elastic Network Interfaces をセットアップします。それぞれの Elastic Network Interface には、指定したサブネット内の IP アドレス範囲からプライベート IP アドレスが割り当てられます。パブリック IP アドレスは割り当てられません。AWS Glue 接続で指定されたセキュリティグループは、各 Elastic Network Interface に適用されます。詳しくは、「AWS Glue から Amazon RDS データストアに JDBC 接続するための Amazon VPC の設定」を参照してください。
ジョブによってアクセスされるすべての JDBC データストアは、VPC サブネットから使用できる必要があります。VPC 内から Amazon S3 にアクセスするには VPC エンドポイント が必須です。ジョブが VPC リソースとパブリックインターネットの両方にアクセスする必要がある場合は、 VPC 内にネットワークアドレス変換 (NAT) ゲートウェイが必要になります。
ジョブまたは開発エンドポイントは、一度に 1 つの VPC (およびサブネット) にのみアクセスできます。異なる VPC のデータストアにアクセスする必要がある場合は、次のオプションがあります。
VPC ピア接続を使用してデータストアにアクセスします。VPC ピア接続の詳細については、「VPC ピア接続の基本」を参照してください。
中間的なストレージとして Amazon S3 バケットを使用します。ジョブ 1 での Amazon S3 出力をジョブ 2 への入力としながら、作業を 2 つのジョブに分割します。
Amazon VPC を使用して Amazon Redshift データストアに接続する方法の詳細については、「Redshift 接続の設定」を参照してください。
Amazon VPC を使用して Amazon RDS データストアに接続する方法の詳細については、「AWS Glue から Amazon RDS データストアに JDBC 接続するための Amazon VPC の設定」を参照してください。
Amazon VPC で必要なルールを設定したら、データストアに接続するために必要なプロパティを使用して、AWS Glue で接続を作成します。接続の詳細については、「データへの接続」を参照してください
注記
AWS Glue の DNS 環境を必ず設定してください。詳細については、「VPC での DNS のセットアップ」を参照してください。