データへの接続
AWS Glue 接続は、特定のデータストアのログイン認証情報、URI 文字列、仮想プライベートクラウド (VPC) 情報などを保存するデータカタログオブジェクトです。AWS Glue クローラー、ジョブ、および開発エンドポイントは、特定のタイプのデータストアにアクセスするために接続を使用します。ソースとターゲットの両方に接続を使用したり、複数のクローラーまたは抽出、変換、ロード (ETL) ジョブで同じ接続を再利用したりできます。
AWS Glue 接続スキーマの最新バージョンでは、AWS Glue、Amazon Athena、Amazon SageMaker AI Unified Studio などの AWS サービスとアプリケーションとの間のデータ接続を統一された方法で管理できます。
コネクタと接続の使用に関する概要
接続には、特定のデータストアに接続するために必要なプロパティが含まれます。作成した接続は AWS Glue Data Catalog に保存されます。コネクタを選択し、そのコネクタに基づいて接続を作成します。
ネイティブにサポートされていないデータストアへのコネクタは、AWS Marketplace 内でサブスクライブすることができます。その後、接続を作成するときにこれらのコネクタを使用します。さらに、デベロッパーは独自のコネクタを作成し、それを接続の作成に使用することもできます。
注記
カスタムのコネクタ、または AWS Marketplace からのコネクタを使用して作成された接続は、タイプを AWS Glue Studio として、AWS Glue コンソール内の UNKNOWN
に表示されます。
以下のステップで、AWS Glue Studio でコネクタを使用するための全体的なプロセスを説明します。
-
AWS Marketplace 内でコネクタをサブスクライブするか、独自のコネクタを開発して、AWS Glue Studio にアップロードします。詳しくは、「AWS Glue Studio にコネクタを追加する 」を参照してください。
-
コネクタの使用方法に関する情報を確認します。この情報は、コネクタ製品ページの [Usage] (使用方法) タブに表示されます。例えば、[Usage] (使用状況) タブで、「AWS Glue Connector for Google BigQuery
」をクリックした場合、[Additional Resources] (その他のリソース) セクションには、このコネクタの使用に関するブログへのリンクが表示されます。 -
接続を作成します。使用するコネクタを選択し、ログイン認証情報、URI 文字列、仮想プライベートクラウド (VPC) 情報など、接続に関する追加情報を提供します。詳しくは、「コネクタ用の接続を作成する 」を参照してください。
-
ジョブ用に IAM ロールを作成します。ジョブは、作成時に指定する [IAM role] (IAM ロール) のアクセス許可があることを想定します。この IAM ロールには、データストアを承認し、そこからのデータ抽出、およびデータを書き込むために必要なアクセス許可を有する必要があります。
-
ETL ジョブを作成し、その ETL ジョブのためにデータソースプロパティを設定します。カスタムコネクタプロバイダーの指示に従って、接続オプションと認証情報を指定します。詳しくは、「カスタムコネクタを使用したジョブのオーサリング 」を参照してください。
-
AWS Glue Studio でビジュアル ETL ジョブを開始する での説明を参考に、変換を追加するか新しいデータストアを追加しながら、ETL ジョブをカスタマイズします。
-
データターゲットにコネクタを使用している場合は、ETL ジョブ用のデータターゲットプロパティを設定します。カスタムコネクタプロバイダーの指示に従って、接続オプションと認証情報を指定します。詳しくは、「カスタムコネクタを使用したジョブのオーサリング 」を参照してください。
-
ジョブのプロパティを変更する での説明のように、ジョブのプロパティを構成して、ジョブの実行環境をカスタマイズします。
-
ジョブを実行します。
統合接続
統合接続を使用すると、データ接続を一度設定すれば、その設定をデータ統合、データ分析、データサイエンスのユースケースに対するさまざまなサービスで再利用することができます。データ接続は、AWS Glue コンソールから作成するか、または統合データ接続 API を使用してカスタム構築されたアプリケーションを使って作成することができます。統合接続では、複数のサービス用に標準化された接続設定テンプレートを使用して、データソースへの接続を設定できます。これらのサービス (AWS Glue、Amazon SageMaker AI Unified Studio、Amazon Athena) は、適切なアクセス許可を設定することによって、同じ接続を共有し再利用することができます。
AWS Glue Studio は、デフォルトで統合接続を作成するようになりました。AWS Glue コンソールでは、接続のバージョンを、接続ページの接続テーブル、接続の詳細ページの接続テーブル、ジョブの詳細ページの接続テーブルで、それぞれ確認できます。
接続のバージョンは [接続の詳細] で確認できます。
接続バージョンは、すべての接続を表示するときにも確認できます。
最後に、接続バージョンはジョブの [ジョブの詳細] タブに表示されます。
バージョン 2 接続では、次の拡張されたデータ接続の機能を使用できます。
-
接続タイプの検出: 標準化されたテンプレートを使用する接続の作成をサポート。ユーザーがアクセス可能な接続タイプと、特定の接続タイプの必須および任意の入力を AWS Glue が自動的に検出します。
-
再利用性: AWS データ処理エンジンや AWS Glue、Amazon Athena、Amazon SageMaker AI などのツール全体で再利用可能な接続定義。接続に AthenaProperties、SparkProperties、PythonProperties が追加されました。これにより、ConnectionProperties に保存されている一般的なプロパティに加え、コンピューティング環境/サービスに固有の接続プロパティを指定することができます。Athena は、AthenaProperties プロパティマップで Athena 固有のプロパティを指定して、AWS Glue で接続を作成するようになりました。
-
データプレビュー: 接続されたソースからメタデータを参照しデータをプレビューする機能。
-
コネクタメタデータ: テーブルメタデータを検出するために再利用可能な接続を使用できます。
-
サービスにリンクされたシークレット: ユーザーは、
CreateConnection
リクエストに必要な OAuth、基本またはカスタムの認証情報を提供できます。CreateConnection API は、アカウントに Service Linked Secret を作成し、ユーザーに代わって認証情報を保存します。