翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Glue データを使用した Amazon DataZone クイックスタート
次のクイックスタートステップを完了して、サンプル AWS Glue データ DataZone を使用して Amazon でデータプロデューサーとデータコンシューマーの完全なワークフローを実行します。
クイックスタートステップ
- ステップ 1 - Amazon DataZone ドメインとデータポータルを作成する
- ステップ 2 - 発行プロジェクトを作成する
- ステップ 3 - 環境を作成する
- ステップ 4 - 発行用のデータを生成する
- ステップ 5 - Glue から AWS メタデータを収集する
- ステップ 6 - データアセットをキュレートして公開する
- ステップ 7 - データ分析用のプロジェクトを作成する
- ステップ 8 - データ分析用の環境を作成する
- ステップ 9 - データカタログを検索し、データをサブスクライブする
- ステップ 10 - サブスクリプションリクエストを承認する
- ステップ 11 - Amazon Athena でクエリを構築し、データを分析する
ステップ 1 - Amazon DataZone ドメインとデータポータルを作成する
このセクションでは、このワークフロー用の Amazon DataZone ドメインとデータポータルを作成する手順について説明します。
Amazon DataZone ドメインを作成するには、次の手順を実行します。Amazon DataZone ドメインの詳細については、「」を参照してくださいAmazon DataZone の用語と概念。
-
https://console.aws.amazon.com/datazone
の Amazon DataZone コンソールに移動し、サインインしてから、ドメインの作成 を選択します。 注記
このワークフローに既存の Amazon DataZone ドメインを使用する場合は、ドメインの表示 を選択し、使用するドメインを選択し、公開プロジェクトの作成のステップ 2 に進みます。
-
ドメインの作成ページで、次のフィールドの値を指定します。
-
名前 - ドメインの名前を指定します。このワークフローでは、このドメインマーケティング を呼び出すことができます。
-
説明 - オプションのドメインの説明を指定します。
-
データ暗号化 - データはデフォルトで、 AWS が所有および管理するキーで暗号化されます。このユースケースでは、デフォルトのデータ暗号化設定のままにすることができます。
カスタマーマネージドキーの使用の詳細については、「」を参照してくださいAmazon の保管中のデータ暗号化 DataZone。データ暗号化に独自のKMSキーを使用する場合は、デフォルトの に次のステートメントを含める必要がありますAmazonDataZoneDomainExecutionRole。
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
-
サービスアクセス - デフォルトでは、 を選択したままにします。デフォルトのロールオプションは変更されません。
注記
このワークフローに既存の Amazon DataZone ドメインを使用している場合は、既存のサービスロールの使用オプションを選択し、ドロップダウンメニューから既存のロールを選択できます。
-
「クイックセットアップ」で、データ消費と の発行のためにこのアカウントを設定する「」を選択します。このオプションでは、Data lake と Data Warehouse の組み込み Amazon DataZone ブループリントを有効にし、このアカウントの必要なアクセス許可、リソース、デフォルトのプロジェクト、デフォルトのデータレイクとデータウェアハウス環境プロファイルを設定します。Amazon DataZone ブループリントの詳細については、「」を参照してくださいAmazon DataZone の用語と概念。
-
アクセス許可の詳細の残りのフィールドは変更しないでください。
注記
既存の Amazon DataZone ドメインがある場合は、既存のサービスロールの使用オプションを選択し、 Glue Manage Access ロール 、 Redshift Manage Access ロール 、およびプロビジョニングロール のドロップダウンメニューから既存のロール を選択できます。
-
タグの下のフィールドは変更しないでください。
-
[ドメインの作成] をクリックします。
-
-
ドメインが正常に作成されたら、このドメインを選択し、ドメインの概要ページで、このドメインのデータポータルURLを書き留めます。これを使用して Amazon DataZone データポータルURLにアクセスし、このワークフローの残りのステップを完了できます。データポータルを開く を選択して、データポータルに移動することもできます。
注記
Amazon の現在のリリースでは DataZone、ドメインが作成されると、データポータル用にURL生成された は変更できません。
ドメインの作成には数分かかる場合があります。次のステップに進む前に、ドメインのステータスが使用可能になるまで待ちます。
ステップ 2 - 発行プロジェクトを作成する
このセクションでは、このワークフローのパブリッシュプロジェクトを作成するために必要なステップについて説明します。
-
上記のステップ 1 を完了してドメインを作成すると、Amazon ! DataZoneへようこそウィンドウが表示されます。このウィンドウで、プロジェクトの作成 を選択します。
-
プロジェクト名を指定します。例えば、このワークフローでは、名前を に付けSalesDataPublishingProject、残りのフィールドは変更せずに の作成 を選択します。
ステップ 3 - 環境を作成する
このセクションでは、このワークフローの環境を作成するために必要なステップについて説明します。
-
上記のステップ 2 を完了してプロジェクトを作成すると、プロジェクトがウィンドウを使用する準備ができたことがわかります。このウィンドウで、環境の作成 を選択します。
-
環境の作成ページで、以下を指定し、環境の作成 を選択します。
-
次の値を指定します。
-
名前 - 環境の名前を指定します。このチュートリアルでは、 と呼びます
Default data lake environment
。 -
説明 - 環境の説明を指定します。
-
環境プロファイル - DataLakeProfile環境プロファイルを選択します。これにより、このワークフロー DataZone で Amazon を使用して、Amazon S3、 AWS Glue Catalog、および Amazon Athena のデータを操作することができます。
-
このチュートリアルでは、残りのフィールドは変更しないでください。
-
-
[Create environment (環境の作成)] を選択します。
ステップ 4 - 発行用のデータを生成する
このセクションでは、このワークフローで発行するデータを生成するために必要なステップについて説明します。
-
上記のステップ 3 を完了したら、
SalesDataPublishingProject
プロジェクトの右側のパネルの Analytics ツール で Amazon Athenaを選択します。これにより、認証にプロジェクトの認証情報を使用して Athena クエリエディタが開きます。公開環境が Amazon DataZone 環境ドロップダウンで選択され、<environment_name>%_pub_db
データベースがクエリエディタで として選択されていることを確認します。 -
このチュートリアルでは、Create Table as Select (CTAS) クエリスクリプトを使用して、Amazon に発行する新しいテーブルを作成します DataZone。クエリエディタで、このCTASスクリプトを実行して、発行して検索とサブスクリプションに使用できる
mkt_sls_table
テーブルを作成します。CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561
mkt_sls_table テーブルが左側の Tables and views セクションに正常に作成されていることを確認します。これで、Amazon DataZone カタログに発行できるデータアセットができました。
ステップ 5 - Glue から AWS メタデータを収集する
このセクションでは、このワークフローの AWS Glue からメタデータを収集するステップについて説明します。
-
上記のステップ 4 を完了したら、Amazon DataZone データポータルで
SalesDataPublishingProject
プロジェクトを選択し、データタブを選択し、左側のパネルでデータソースを選択します。 -
環境作成プロセスの一環として作成されたソースを選択します。
-
アクションドロップダウンメニューの横にある実行を選択し、更新ボタンを選択します。データソースの実行が完了すると、アセットが Amazon DataZone インベントリに追加されます。
ステップ 6 - データアセットをキュレートして公開する
このセクションでは、このワークフローでデータアセットをキュレートして公開するステップについて説明します。
-
上記のステップ 5 を完了したら、Amazon DataZone データポータルで、前のステップで作成した
SalesDataPublishingProject
プロジェクトを選択し、データタブを選択し、左側のパネルでインベントリデータを選択し、mkt_sls_table
テーブルを見つけます。 -
mkt_sls_table
アセットの詳細ページを開き、自動的に生成されたビジネス名を表示します。自動生成されたメタデータアイコンを選択すると、アセットと列の自動生成された名前が表示されます。各名前を個別に承諾または拒否するか、すべて承諾を選択して生成された名前を適用できます。必要に応じて、使用可能なメタデータフォームをアセットに追加し、用語集用語を選択してデータを分類することもできます。 -
アセットを発行を選択して
mkt_sls_table
アセットを公開します。
ステップ 7 - データ分析用のプロジェクトを作成する
このセクションでは、データ分析用のプロジェクトを作成する手順について説明します。これは、このワークフローのデータコンシューマーステップの始まりです。
-
上記のステップ 6 を完了したら、Amazon DataZone データポータルで、プロジェクトドロップダウンメニューからプロジェクトの作成を選択します。
-
プロジェクトの作成ページで、プロジェクト名を指定します。例えば、このワークフローでは、名前を に付けMarketingDataAnalysisProject、残りのフィールドを変更せずに の作成 を選択できます。
ステップ 8 - データ分析用の環境を作成する
このセクションでは、データ分析用の環境を作成する手順について説明します。
-
上記のステップ 7 を完了したら、Amazon DataZone データポータルで
MarketingDataAnalysisProject
プロジェクトを選択し、環境タブを選択し、環境の作成 を選択します。 -
環境の作成ページで、以下を指定し、環境の作成 を選択します。
-
名前 - 環境の名前を指定します。このチュートリアルでは、 と呼びます
Default data lake environment
。 -
説明 - 環境の説明を指定します。
-
環境プロファイル - 組み込みDataLakeProfile環境プロファイルを選択します。
-
このチュートリアルでは、残りのフィールドは変更しないでください。
-
ステップ 9 - データカタログを検索し、データをサブスクライブする
このセクションでは、データカタログを検索し、データをサブスクライブする手順について説明します。
-
上記のステップ 8 を完了したら、Amazon DataZone データポータルで Amazon DataZone アイコンを選択し、Amazon DataZone Search フィールドで、データポータルの検索バーでキーワード (「カタログ」や「売上」など) を使用してデータアセットを検索します。
必要に応じて、フィルターまたはソートを適用し、Product Sales Data アセットを見つけたら、アセットの詳細ページを開くように選択できます。
-
Catalog Sales Data アセットの詳細ページで、「サブスクライブ」を選択します。
-
Subscribe ダイアログで、ドロップダウンからMarketingDataAnalysisProjectコンシューマープロジェクトを選択し、サブスクリプションリクエストの理由を指定し、Subscribe を選択します。
ステップ 10 - サブスクリプションリクエストを承認する
このセクションでは、サブスクリプションリクエストを承認する手順について説明します。
-
上記のステップ 9 を完了したら、Amazon DataZone データポータルで、アセットを公開したSalesDataPublishingProjectプロジェクトを選択します。
-
Data タブを選択し、次に Published data を選択し、Incoming requests を選択します。
-
これで、承認が必要な新しいリクエストの行が表示されます。リクエストの表示 を選択します。承認の理由を入力し、「承認」を選択します。
ステップ 11 - Amazon Athena でクエリを構築し、データを分析する
Amazon DataZone カタログにアセットを正常に公開し、サブスクライブしたら、分析できます。
-
Amazon DataZone データポータルでコンシューマーMarketingDataAnalysisProjectプロジェクトを選択し、右側のパネルの 分析ツール で Amazon Athena とのクエリデータリンクを選択します。これにより、プロジェクトの認証情報を使用して Amazon Athena クエリエディタが開きます。クエリエディタの Amazon DataZone Environment ドロップダウンからMarketingDataAnalysisProjectコンシューマー環境を選択し、データベースドロップダウン
<environment_name>%sub_db
からプロジェクトの を選択します。 -
サブスクライブされたテーブルでクエリを実行できるようになりました。テーブルとビュー からテーブルを選択し、プレビューを選択してエディタ画面に選択ステートメントを表示できます。クエリを実行して結果を表示します。