AWS Glue データカタログへのクロスアカウントアクセスを構成する
Athena のクロスアカウント AWS Glue カタログ機能を使用して、所有するアカウント以外のアカウントから AWS Glue カタログを登録できます。AWS Glue に必要な IAM アクセス許可を設定して、カタログを Athena DataCatalog リソースとして登録したら、Athena を使用してクロスアカウントクエリを実行できます。Athena コンソールを使用して別のアカウントからカタログを登録する方法については、「別のアカウントからデータカタログを登録する」を参照してください。
AWS Glue でのクロスアカウントアクセスの詳細については、「AWS Glue デベロッパーガイド」の「クロスアカウントアクセス許可の付与」を参照してください。
開始する前に
この機能は、既存の Athena DataCatalog
リソース API と機能性を使用してクロスアカウントアクセスを有効にするため、開始する前に以下のリソースを読んでおくことが推奨されます。
-
データソースに接続する - Athena での AWS Glue、Hive、または Lambda データカタログソースの使用に関するトピックが含まれています。
-
データカタログポリシーの例 – データカタログへのアクセスを制御するポリシーの作成方法が説明されています。
-
Hive メタストアで AWS CLI を使用する - Hive メタストアで AWS CLI を使用する方法が説明されていますが、他のデータソースに該当するユースケースも含まれています。
考慮事項と制限事項
現在、Athena での AWS Glue カタログのクロスアカウントアクセスには、以下の制約事項があります。
-
この機能は、Athena エンジンバージョン 2 以降がサポートされている AWS リージョン のみで使用できます。Athena エンジンバージョンの詳細については、「Athena エンジンのバージョニング」を参照してください。ワークグループのエンジンバージョンをアップグレードする方法について、「Athena エンジンバージョンを変更する」を参照してください。
-
別のアカウントの AWS Glue Data Catalog をアカウントに登録するときは、特定のリージョンにある他のアカウントのデータのみにリンクされているリージョン
DataCatalog
リソースを作成します。 -
現在、クロスアカウント AWS Glue カタログを含む
CREATE VIEW
ステートメントはサポートされていません。 -
AWS マネージドキーを使用して暗号化されたカタログを複数のアカウント全体でクエリすることはできません。複数のアカウント全体でクエリしたいカタログには、カスタマー管理キー (
KMS_CMK
) を代わりに使用してください。カスタマーマネージドキーと AWS マネージドキーの違いについては、「AWS Key Management Service デベロッパーガイド」の「カスタマーキーと AWS キー」を参照してください。
使用を開始する
次のシナリオでは、以下の例にあるように、「借用者」アカウント (666666666666) が「所有者」アカウント (999999999999) に属する AWS Glue カタログを参照する SELECT
クエリを実行します。
SELECT * FROM ownerCatalog.tpch1000.customer
以下の手順にあるステップ 1a および 1b は、所有者と借用者の両方の観点から、所有者アカウントの AWS Glue リソースへのアクセス権を借用者アカウントに付与する方法を説明しています。この例は、データベース tpch1000
とテーブル customer
へのアクセス権を付与します。これらの例の名前は、要件に合わせて変更してください。
ステップ 1a: 所有者の AWS Glue リソースにアクセスするためのポリシーで借用者ロールを作成する
所有者アカウントの AWS Glue リソースにアクセスするためのポリシーで借用者アカウントロールを作成するには、AWS Identity and Access Management (IAM) コンソール、または IAM API を使用できます。以下の手順では、IAM コンソールを使用します。
所有者アカウントの AWS Glue リソースにアクセスするための借用者ロールとポリシーを作成する
-
借用者アカウントから IAM コンソール (https://console.aws.amazon.com/iam/
) にサインインします。 -
ナビゲーションペインの [アクセス管理] を展開し、[ポリシー] を選択します。
-
[Create policy] を選択します。
-
[ポリシーエディター] には [JSON] を選択します。
-
ポリシーエディタに以下のポリシーを入力してから、要件に応じて変更します。
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:*", "Resource": [ "arn:aws:glue:
us-east-1
:999999999999
:catalog", "arn:aws:glue:us-east-1
:999999999999
:database/tpch1000
", "arn:aws:glue:us-east-1
:999999999999
:table/tpch1000
/customer
" ] } ] } -
[Next] を選択します。
-
[確認して作成] ページにある [ポリシー名] にポリシーの名前 (
CrossGluePolicyForBorrowerRole
など) を入力します。 -
[Create policy] を選択します。
-
ナビゲーションペインで [ロール] を選択します。
-
[Create role] を選択します。
-
[信頼されたエンティティを選択] ページで [AWS アカウント] を選択してから、[次へ] を選択します。
-
[許可を追加] ページで、作成したポリシーの名前 (
CrossGluePolicyForBorrowerRole
など) を検索ボックスに入力します。 -
ポリシー名の横にあるチェックボックスにチェックを入れてから、[次へ] を選択します。
-
[Name, review, and create] (名前、レビュー、および作成) ページで、[Role name] (ロール名) にロールの名前 (例えば、
CrossGlueBorrowerRole
) を入力します。 -
[ロールの作成] を選択します。
ステップ 1b: 借用者に AWS Glue アクセス権を付与する所有者ポリシーを作成する
所有者アカウント (999999999999) から借用者のロールに AWS Glue アクセス権を付与するには、AWS Glue コンソール、または AWS Glue PutResourcePolicy API オペレーションを使用できます。以下の手順では、AWS Glue コンソールを使用します。
所有者から借用者アカウントに AWS Glue アクセス権を付与するには
-
所有者アカウントから AWS Glue コンソール (https://console.aws.amazon.com/glue/
) にサインインします。 -
ナビゲーションペインで、[データカタログ] を展開し、[カタログ設定] を選択します。
-
[Permissions] (許可) ボックスに、以下のようなポリシーを入力します。
rolename
には、ステップ 1a で借用者が作成したロール (CrossGlueBorrowerRole
など) を入力します。権限の範囲を拡大する場合は、データベースとテーブルのリソースタイプ両方にワイルドカード文字 (*
) を使用します。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::
666666666666
:user/username
", "arn:aws:iam::666666666666
:role/rolename
" ] }, "Action": "glue:*", "Resource": [ "arn:aws:glue:us-east-1
:999999999999
:catalog", "arn:aws:glue:us-east-1
:999999999999
:database/tpch1000
", "arn:aws:glue:us-east-1
:999999999999
:table/tpch1000
/customer
" ] } ] }
完了したら、AWS Glue API を使用してテスト用のクロスアカウントコールをいくつか実行し、許可が期待どおりに設定されているのを確認することをお勧めします。
ステップ 2: 借用者が所有者アカウントに属する AWS Glue Data Catalog を登録する
以下の手順では、Athena コンソールを使用して、所有者の Amazon Web Services アカウント内の AWS Glue Data Catalog をデータソースとして設定する方法を説明します。コンソールの代わりに API オペレーションを使用してカタログを登録する方法については、「(オプション) API を使用して、所有者アカウントに属する Athena Data Catalog を登録します。」(API を使用した所有者アカウントに属する Athena データカタログの登録) を参照してください。
別のアカウントに属する AWS Glue Data Catalog を登録する
https://console.aws.amazon.com/athena/
で Athena コンソールを開きます。 コンソールのナビゲーションペインが表示されない場合は、左側の展開メニューをクリックします。
-
[管理] を展開し、[データソース] を選択します。
-
コンソールの右上で、[Create data source] (データソースの作成) を選択します。
-
[データソースを選択] ページの [データソース] で、[S3 - AWS Glue Data Catalog] を選択し、[次へ] を選択します。
-
[Enter data source details] (データソースの詳細を入力) ページの [AWS Glue Data Catalog] (AWS Glue Data Catalog データカタログ) セクションにある [Choose an AWS Glue Data Catalog] (AWS Glue Data Catalog データカタログを選択) で、[AWS Glue Data Catalog in another account] (別のアカウントの AWS Glue Data Catalog データカタログ) を選択します。
-
[Data source details] (データソースの詳細) に、以下の情報を入力します。
-
[Data source name] (データソース名) – 他のアカウントにあるデータカタログを参照するために SQL クエリで使用する名前を入力します。
-
Description (説明) – (オプション) 他のアカウントにあるデータカタログの説明を入力します。
-
カタログ ID – データカタログが属する Amazon Web Services アカウントの 12 桁のアカウント ID を入力します。Amazon Web Services アカウント ID はカタログ ID です。
-
-
(オプション) [タグ] を展開し、データソースと関連付けるキーと値のペアを入力します。タグの詳細については、Athena リソースにタグ付けするを参照してください。
-
[Next] を選択します。
-
[Review and create] (確認と作成) ページで入力した情報を確認してから、[Create data source] (データソースの作成) を選択します。[Data source details] (データソースの詳細) ページに、登録したデータカタログのデータベースとタグがリストされます。
-
[Data sources] (データソース) を選択します。登録したデータカタログは、[Data source name] (データソース名) 列にリストされています。
-
データカタログに関する情報を表示または編集するには、カタログを選択してから、[Actions] (アクション)、[Edit] (編集) の順に選択します。
-
新しいデータカタログを削除するには、カタログを選択してから、[Actions] (アクション)、[Delete] (削除する) の順に選択します。
ステップ 3: 借用者がクエリを送信する
以下の例にあるように、借用者が catalog
.database
.table
構文を使用して、カタログを参照するクエリを送信します。
SELECT * FROM ownerCatalog.tpch1000.customer
借用者は、完全修飾構文を使用する代わりに、カタログを QueryExecutionContext 経由で渡すことによって、コンテキスト的に指定することもできます。
(オプション) 追加の Amazon S3 アクセス許可を設定します。
-
借用者アカウントが Athena クエリを使用して所有者アカウント内のテーブルに新しいデータを書き込む場合は、テーブルが所有者のアカウントに存在していても、Amazon S3 内のこのテーブルへのアクセス権が所有者に自動的に付与されることはありません。これは、別途設定されている場合を除き、借用者が Amazon S3 内のこの情報のオブジェクト所有者になっているためです。データに対するアクセス権を所有者に付与するには、追加のステップとして、オブジェクトに対する許可を適宜設定します。
-
MSCK REPAIR TABLE などの特定のクロスアカウント DDL オペレーションには、Amazon S3 許可が必要です。例えば、所有者アカウントの S3 バケットにデータがある所有者アカウント内のテーブルに対して借用者アカウントがクロスアカウント
MSCK REPAIR
操作を実行している場合、そのクエリを成功させるには、借用者が引き受けたロールに対して S3 バケットが許可を付与する必要があります。
バケットのアクセス許可の付与に関する詳細は、「Amazon Simple Storage Service ユーザーガイド」の「ACL の設定」を参照してください。
(オプション) カタログを動的に使用します。
前提条件である登録ステップを行うことなく、クロスアカウント AWS Glue カタログに対するテストを素早く実行したいという場合があります。本書に前述されているとおり、必要な IAM 許可と Amazon S3 許可が正しく設定されている場合は、DataCatalog
リソースオブジェクトを作成することなくクロスアカウントクエリを動的に実行することができます。
登録せずにカタログを明示的に参照するには、以下の例にある構文を使用します。
SELECT * FROM "glue:arn:aws:glue:us-east-1:999999999999:catalog".tpch1000.customer
「glue:
」形式を使用します。<arn>
は、使用する AWS Glue Data Catalog の ARN です。この例では、Athena がこの構文を使用して、アカウント 999999999999 の AWS Glue データカタログのために <arn>
DataCatalog
オブジェクトを別途作成したかのように、それを動的にポイントします。
動的カタログの使用に関する注意事項
動的カタログを使用するときは、以下の点に注意してください。
-
動的カタログの使用には、通常 Athena データカタログ API オペレーションに使用する IAM 許可が必要です。主な違いは、データカタログリソース名が
glue:*
命名規則に従っていることです。 -
カタログ ARN は、クエリが実行されているリージョンと同じリージョンに属している必要があります。
-
DML クエリまたはビューで動的カタログを使用しているときは、それをエスケープされた二重引用符 (
\"
) で囲みます。DDL クエリで動的カタログを使用しているときは、それをバックティック文字 (`
) で囲みます。
(オプション) API を使用して、所有者アカウントに属する Athena Data Catalog を登録します。
ステップ 2 の説明に従って Athena コンソールを使用する代わりに、API オペレーションを使用して所有者アカウントに属するデータカタログを登録することができます。
Athena DataCatalog リソースの作成者には、Athena CreateDataCatalog API オペレーションを実行するための許可が必要です。要件によっては、追加の API オペレーションへのアクセス権が必要になる場合もあります。詳細については、「データカタログポリシーの例」を参照してください。
以下の CreateDataCatalog
リクエストボディは、クロスアカウントアクセス用に AWS Glue カタログを登録します。
# Example CreateDataCatalog request to register a cross-account Glue catalog: { "Description": "Cross-account Glue catalog", "Name": "ownerCatalog", "Parameters": {"catalog-id" : "999999999999" # Owner's account ID }, "Type": "GLUE" }
以下のサンプルコードは、Java クライアントを使用して DataCatalog
オブジェクトを作成します。
# Sample code to create the DataCatalog through Java client CreateDataCatalogRequest request = new CreateDataCatalogRequest() .withName("ownerCatalog") .withType(DataCatalogType.GLUE) .withParameters(ImmutableMap.of("catalog-id", "999999999999")); athenaClient.createDataCatalog(request);
これらのステップの後、借用者が ListDataCatalogs API オペレーションを呼び出すと、ownerCatalog
が表示されます。
追加リソース
-
「AWS Prescriptive Guidance Patterns」ガイドの Amazon Athena を使用して、共有 AWS Glue Data Catalog へのクロスアカウントアクセスを設定します。
-
AWS Big Data Blog の「Query cross-account AWS Glue Data Catalogs using Amazon Athena
」 -
「AWS Glue デベロッパーガイド」の「クロスアカウントアクセス許可の付与」