Amazon Redshift データを使用した Amazon DataZone クイックスタート - Amazon DataZone

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Redshift データを使用した Amazon DataZone クイックスタート

次のクイックスタートのステップを完了することで、Amazon DataZone で Amazon Redshift データのサンプルを使用して、データプロデューサーとデータコンシューマーの完全なワークフローを実行します。

ステップ 1 - Amazon DataZone ドメインとデータポータルを作成する

Amazon DataZone ドメインを作成するには、次の手順を実行します。Amazon DataZone ドメインの削除については、「Amazon DataZone の用語と概念」を参照してください。

  1. https://console.aws.amazon.com/datazone の Amazon DataZone コンソールに移動し、サインインしてから、[ドメインを作成] を選択します。

    注記

    このワークフローに既存の Amazon DataZone ドメインを使用する場合は、[ドメインを表示] を選択して使用するドメインを選択し、「ステップ 2 - 公開プロジェクトを作成する」に進みます。

  2. [ドメインを作成] ページで、次のフィールドの値を指定します。

    • 名前 - ドメインの名前を指定します。このワークフローでは、このドメイン Marketing を呼び出すことができます。

    • 説明 - オプションでドメインの説明を指定します。

    • データ暗号化 - データはデフォルトで AWS が所有して管理するキーを使用して暗号化されます。このチュートリアルでは、デフォルトのデータ暗号化設定のままにすることができます。

      カスタマーマネージドキーの詳細については、「Amazon DataZone での保管中のデータ暗号化」を参照してください。データ暗号化にユーザー独自の KMS キーを使用する場合は、デフォルトの AmazonDataZoneDomainExecutionRole に次のステートメントを含める必要があります。

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • サービスアクセス - [カスタムサービスロールを使用] オプションを選択し、ドロップダウンメニューから AmazonDataZoneDomainExecutionRole を選択します。

    • [Quick Setup] で、[データ消費と公開のためにこのアカウントを設定] を選択します。このオプションでは、データレイクデータウェアハウスの組み込み Amazon DataZone ブループリントを有効にし、このワークフローの残りのステップを完了するために必要なアクセス許可とリソースを設定します。Amazon DataZone ブループリントの詳細については、「Amazon DataZone の用語と概念」を参照してください。

    • [アクセス許可の詳細][タグ] の残りのフィールドは変更せずに、[ドメインを作成] を選択します。

  3. ドメインが正常に作成されたら、このドメインを選択し、ドメインの概要ページに表示されるこのドメインの [データポータル URL] をメモします。この URL を使用して Amazon DataZone データポータルにアクセスし、このワークフローの残りのステップを完了できます。

注記

Amazon DataZone の現在のリリースでは、ドメインが作成されると、データポータル用に生成された URL は変更できません。

ドメインの作成には数分かかることがあります。ドメインのステータスが [使用可能] になるまで待ってから、次のステップに進みます。

ステップ 2 - 公開プロジェクトを作成する

次のセクションでは、このワークフローで公開プロジェクトを作成する手順について説明します。

  1. ステップ 1 を完了したら、データポータル URL を使用して Amazon DataZone データポータルに移動し、シングルサインオン (SSO) または AWS IAM 認証情報を使用してログインします。

  2. [プロジェクトを作成] を選択し、プロジェクト名を指定します。例えば、このワークフローでは、SalesDataPublishingProject という名前を付けてから、残りのフィールドを変更せずに、[作成] を選択します。

ステップ 3 - 環境を作成する

次のセクションでは、このワークフローで環境を作成する手順について説明します。

  1. ステップ 2 を完了したら、前のステップで作成した SalesDataPublishingProject プロジェクトを Amazon DataZone データポータルで選択し、[環境] タブ、[環境を作成] の順に選択します。

  2. [環境を作成] ページで、以下を指定して [環境を作成] を選択します。

    • 名前 - 環境の名前を指定します。このチュートリアルでは、Default data warehouse environment と呼びます。

    • 説明 - 環境の説明を入力します。

    • 環境プロファイル - DataWarehouseProfile 環境プロファイルを選択します。

    • Amazon Redshift クラスターの名前、データベース名、およびデータが保存されている Amazon Redshift クラスターのシークレット ARN を入力します。

      注記

      AWS Secrets Manager のシークレットに次のタグ (キー/値) が含まれていることを確認します。

      • Amazon Redshift クラスターの場合 - datazone.rs.cluster: <cluster_name:database name>

        Amazon Redshift Serverless ワークグループの場合 - datazone.rs.workgroup: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      詳細については、「AWS Secrets Manager へのデータベース認証情報の保存」を参照してください。

      AWS Secrets Manager で指定するデータベースユーザーには、スーパーユーザーアクセス許可が必要です。

ステップ 4 - 公開するデータを生成する

次のセクションでは、このワークフローで公開するデータを生成する手順について説明します。

  1. Amazon DataZone データポータルでステップ 3 を完了したら、SalesDataPublishingProjectプロジェクトを選択し、右側のパネルの [分析ツール]Amazon Redshift を選択します。これにより、認証にプロジェクトの認証情報を使用して Amazon Redshift クエリエディタが開きます。

  2. このチュートリアルでは、Create Table as Select (CTAS) クエリスクリプトを使用して、Amazon DataZone に公開する新しいテーブルを作成します。クエリエディタでこの CTAS スクリプトを実行し、公開して検索とサブスクリプションで使用できる mkt_sls_table テーブルを作成します。

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    mkt_sls_table テーブルが正常に作成されていることを確認します。これで、Amazon DataZone カタログに公開できるデータアセットができます。

ステップ 5 - Amazon Redshift からメタデータを収集する

次のセクションでは、Amazon Redshift からメタデータを収集する手順について説明します。

  1. ステップ 4 を完了したら、Amazon DataZone データポータルで SalesDataPublishingProject プロジェクトを選択し、[データ] タブ、[データソース] の順に選択します。

  2. 環境作成プロセスの一部として作成されたソースを選択します。

  3. [アクション] ドロップダウンメニューの横にある [実行] を選択し、更新ボタンを選択します。データソースの実行が完了すると、アセットが Amazon DataZone インベントリに追加されます。

ステップ 6 - データアセットをキュレートして公開する

次のセクションでは、このワークフローでデータアセットをキュレートして公開する手順について説明します。

  1. ステップ 5 を完了したら、Amazon DataZone データポータルで SalesDataPublishingProject プロジェクトを選択し、[データ] タブ、[インベントリデータ] の順に選択し、mkt_sls_table テーブルを見つけます。

  2. mkt_sls_table アセットの詳細ページを開くと、自動的に生成されたビジネス名が表示されます。自動生成されたメタデータのアイコンを選択すると、アセットと列の自動生成された名前が表示されます。各名前を個別に承認または拒否するか、[すべて承認] を選択して生成された名前を適用できます。必要に応じて、使用可能なメタデータフォームをアセットに追加し、用語集の用語を選択してデータを分類することもできます。

  3. [公開] を選択して mkt_sls_table アセットを公開します。

ステップ 7 - データ分析用のプロジェクトを作成する

次のセクションでは、このワークフローでデータ分析用のプロジェクトを作成する手順について説明します。

  1. ステップ 6 を完了したら、Amazon DataZone データポータルで [プロジェクトを作成] を選択します。

  2. [プロジェクトを作成] ページで、プロジェクト名を指定します。例えば、このワークフローでは、MarketingDataAnalysisProject という名前を付け、残りのフィールドは変更せずに [作成] を選択します。

ステップ 8 - データ分析用の環境を作成する

次のセクションでは、このワークフローでデータ分析用の環境を作成する手順について説明します。

  1. ステップ 7 を完了したら、前のステップで作成した MarketingDataAnalysisProject プロジェクトを Amazon DataZone データポータルで選択し、[環境] タブ、[環境を追加] の順に選択します。

  2. [環境を作成] ページで、以下を指定して [環境を作成] を選択します。

    • 名前 - 環境の名前を指定します。このチュートリアルでは、Default data warehouse environment と呼びます。

    • 説明 - 環境の説明を入力します。

    • 環境プロファイル - DataWarehouseProfile 環境プロファイルを選択します。

    • Amazon Redshift クラスターの名前、データベース名、およびデータが保存されている Amazon Redshift クラスターのシークレット ARN を入力します。

      注記

      AWS Secrets Manager のシークレットに次のタグ (キー/値) が含まれていることを確認します。

      • Amazon Redshift クラスターの場合 - datazone.rs.cluster: <cluster_name:database name>

        Amazon Redshift Serverless ワークグループの場合 - datazone.rs.workgroup: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      詳細については、「AWS Secrets Manager へのデータベース認証情報の保存」を参照してください。

      AWS Secrets Manager で指定するデータベースユーザーには、スーパーユーザーアクセス許可が必要です。

    • このチュートリアルでは、残りのフィールドは変更しないでください。

ステップ 9 - データカタログを検索してデータをサブスクライブする

次のセクションでは、データカタログを検索してデータをサブスクライブする手順について説明します。

  1. ステップ 8 を完了したら、Amazon DataZone データポータルの [検索] バーでキーワード (「カタログ」や「売上」など) を使用してデータアセットを検索します。

    必要に応じて、フィルターまたはソートを適用し、「製品販売データ」アセットを見つけたら、それを選択してアセットの詳細ページを開くことができます。

  2. 「製品販売データ」アセットの詳細ページで、[サブスクライブ] を選択します。

  3. ダイアログでドロップダウンからコンシューマープロジェクトを選択し、アクセスリクエストに理由を入力し、[サブスクライブ] を選択します。

ステップ 10: サブスクリプション リクエストの承認

次のセクションでは、このワークフローでサブスクリプションリクエストを承認する手順について説明します。

  1. ステップ 9 を完了したら、アセットを公開した SalesDataPublishingProject プロジェクトを Amazon DataZone データポータルで選択します。

  2. [データ] タブを選択し、[公開されたデータ][受信リクエスト] の順に選択します。

  3. ビューリクエストリンクを選択し、[承認] を選択します。

ステップ 11 - Amazon Redshift でクエリを構築してデータを分析する

Amazon DataZone カタログにアセットを正常に公開してサブスクライブしているので、アセットを分析できます。

  1. Amazon DataZone データポータルの右側のパネルで、Amazon Redshift リンクをクリックします。これにより、認証にプロジェクトの認証情報を使用して Amazon Redshift クエリエディタが開きます。

  2. これで、サブスクライブしているテーブルでクエリ (SELECT ステートメント) を実行できます。テーブルをクリック (縦三点リーダーオプション) してプレビューを選択すると、エディタ画面に SELECT ステートメントを表示できます。クエリを実行して、結果を確認します。