データへの接続
AWS Glue 接続は、特定のデータストアのログイン認証情報、URI 文字列、仮想プライベートクラウド (VPC) 情報などを保存するデータカタログオブジェクトです。AWS Glue クローラー、ジョブ、および開発エンドポイントは、特定のタイプのデータストアにアクセスするために接続を使用します。ソースとターゲットの両方に接続を使用したり、複数のクローラーまたは抽出、変換、ロード (ETL) ジョブで同じ接続を再利用したりできます。
コネクタと接続の使用に関する概要
接続には、特定のデータストアに接続するために必要なプロパティが含まれます。作成した接続は AWS Glue Data Catalog に保存されます。コネクタを選択し、そのコネクタに基づいて接続を作成します。
ネイティブにサポートされていないデータストアへのコネクタは、AWS Marketplace 内でサブスクライブすることができます。その後、接続を作成するときにこれらのコネクタを使用します。さらに、デベロッパーは独自のコネクタを作成し、それを接続の作成に使用することもできます。
注記
カスタムのコネクタ、または AWS Marketplace からのコネクタを使用して作成された接続は、タイプを AWS Glue Studio として、AWS Glue コンソール内の UNKNOWN
に表示されます。
以下のステップで、AWS Glue Studio でコネクタを使用するための全体的なプロセスを説明します。
-
AWS Marketplace 内でコネクタをサブスクライブするか、独自のコネクタを開発して、AWS Glue Studio にアップロードします。詳しくは、「AWS Glue Studio にコネクタを追加する 」を参照してください。
-
コネクタの使用方法に関する情報を確認します。この情報は、コネクタ製品ページの [Usage] (使用方法) タブに表示されます。例えば、[Usage] (使用状況) タブで、「AWS Glue Connector for Google BigQuery
」をクリックした場合、[Additional Resources] (その他のリソース) セクションには、このコネクタの使用に関するブログへのリンクが表示されます。他のコネクタについては、コネクタの製品ページ Cloudwatch Logs connector for AWS Glue のように、[Overview] (概要) セクションで使用手順に関するリンクが表示されます。 -
接続を作成します。使用するコネクタを選択し、ログイン認証情報、URI 文字列、仮想プライベートクラウド (VPC) 情報など、接続に関する追加情報を提供します。詳しくは、「コネクタ用の接続を作成する 」を参照してください。
-
ジョブ用に IAM ロールを作成します。ジョブは、作成時に指定する [IAM role] (IAM ロール) のアクセス許可があることを想定します。この IAM ロールには、データストアを承認し、そこからのデータ抽出、およびデータを書き込むために必要なアクセス許可を有する必要があります。
-
ETL ジョブを作成し、その ETL ジョブのためにデータソースプロパティを設定します。カスタムコネクタプロバイダーの指示に従って、接続オプションと認証情報を指定します。詳しくは、「カスタムコネクタを使用したジョブのオーサリング 」を参照してください。
-
AWS Glue Studio でビジュアル ETL ジョブを開始する での説明を参考に、変換を追加するか新しいデータストアを追加しながら、ETL ジョブをカスタマイズします。
-
データターゲットにコネクタを使用している場合は、ETL ジョブ用のデータターゲットプロパティを設定します。カスタムコネクタプロバイダーの指示に従って、接続オプションと認証情報を指定します。詳しくは、「カスタムコネクタを使用したジョブのオーサリング 」を参照してください。
-
ジョブのプロパティを変更する での説明のように、ジョブのプロパティを構成して、ジョブの実行環境をカスタマイズします。
-
ジョブを実行します。