

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon DataZone 快速入門搭配 AWS Glue 資料
<a name="quickstart-glue"></a>

完成下列快速入門步驟，以使用範例 Glue AWS 資料在 Amazon DataZone 中執行完整的資料生產者和資料消費者工作流程。

**Topics**
+ [步驟 1 - 建立 Amazon DataZone 網域和資料入口網站](#create-domain-gs-glue)
+ [步驟 2 - 建立發佈專案](#create-publishing-project-gs-glue)
+ [步驟 3 - 建立環境](#create-environment-gs-glue)
+ [步驟 4 - 產生資料以進行發佈](#produce-data-for-publishing-gs-glue)
+ [步驟 5 - 從 Glue AWS 收集中繼資料](#gather-metadata-from-glue-gs-glue)
+ [步驟 6 - 整理和發佈資料資產](#curate-data-asset-gs-glue)
+ [步驟 7 - 建立用於資料分析的專案](#create-project-for-data-analysis-gs-glue)
+ [步驟 8 - 建立用於資料分析的環境](#create-environment-gs2-glue)
+ [步驟 9 - 搜尋資料目錄並訂閱資料](#search-catalog-subscribe-gs-glue)
+ [步驟 10 - 核准訂閱請求](#approve-subscription-request-gs-glue)
+ [步驟 11 - 在 Amazon Athena 中建立查詢和分析資料](#analyze-data-gs-glue)

## 步驟 1 - 建立 Amazon DataZone 網域和資料入口網站
<a name="create-domain-gs-glue"></a>

本節說明為此工作流程建立 Amazon DataZone 網域和資料入口網站的步驟。

完成下列程序以建立 Amazon DataZone 網域。如需 Amazon DataZone 網域的詳細資訊，請參閱 [Amazon DataZone 術語和概念](datazone-concepts.md)。

1. 導覽至位於 https：//[https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone) 的 Amazon DataZone 主控台，登入，然後選擇**建立網域**。
**注意**  
如果您想要為此工作流程使用現有的 Amazon DataZone 網域，請選擇**檢視網域**，然後選擇您要使用的網域，然後繼續進行建立發佈專案的步驟 2。

1. 在**建立網域**頁面上，提供下列欄位的值：
   + **名稱** - 為您的網域指定名稱。基於此工作流程的目的，您可以呼叫此網域**行銷**。
   + **描述** - 指定選用的網域描述。
   + **資料加密** - 根據預設，您的資料會使用 AWS 擁有和管理的金鑰進行加密。對於此使用案例，您可以保留預設的資料加密設定。

     如需使用客戶受管金鑰的詳細資訊，請參閱 [Amazon DataZone 的靜態資料加密](encryption-rest-datazone.md)。如果您使用自己的 KMS 金鑰進行資料加密，則必須在預設 中包含下列陳述式[AmazonDataZoneDomainExecutionRole](AmazonDataZoneDomainExecutionRole.md)。

------
#### [ JSON ]

****  

     ```
     {
         "Version":"2012-10-17",		 	 	 
         "Statement": [
             {
                 "Sid": "Statement1",
                 "Effect": "Allow",
                 "Action": [
                     "kms:Decrypt",
                     "kms:DescribeKey",
                     "kms:GenerateDataKey"
                 ],
                 "Resource": [
                     "arn:aws:kms:us-east-1:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"
                 ]
             }
         ]
     }
     ```

------
   + **服務存取** - 預設保留選取的 **使用預設角色**選項不變。
**注意**  
如果您為此工作流程使用現有的 Amazon DataZone 網域，您可以選擇**使用現有的服務角色**選項，然後從下拉式功能表中選擇現有的角色。
   + 在**快速設定**下，選擇**設定此帳戶以供資料使用和發佈**。此選項會啟用**資料湖**和**資料倉儲**的內建 Amazon DataZone 藍圖，並設定此帳戶所需的許可、資源、預設專案，以及預設資料湖和資料倉儲環境設定檔。如需 Amazon DataZone 藍圖的詳細資訊，請參閱 [Amazon DataZone 術語和概念](datazone-concepts.md)。
   + 將**許可詳細資訊**下的其餘欄位保持不變。
**注意**  
如果您有現有的 Amazon DataZone 網域，您可以選擇**使用現有的服務角色**選項，然後從 **Glue 管理存取角色**、**Redshift 管理存取角色**和**佈建角色**的下拉式功能表中選擇現有的角色。
   + 將**標籤**下方的欄位保持不變。
   + 選擇**建立網域**。

1. 成功建立網域後，請選擇此網域，然後在網域的摘要頁面上，記下此網域**的資料入口網站 URL**。您可以使用此 URL 存取 Amazon DataZone 資料入口網站，以完成此工作流程中的其餘步驟。您也可以選擇**開啟資料入口網站來導覽至資料入口網站**。

**注意**  
在目前版本的 Amazon DataZone 中，一旦建立網域，就無法修改為資料入口網站產生的 URL。

建立網域可能需要幾分鐘的時間才能完成。等待網域的狀態為**可用**，再繼續下一個步驟。

## 步驟 2 - 建立發佈專案
<a name="create-publishing-project-gs-glue"></a>

本節說明為此工作流程建立發佈專案所需的步驟。

1. 完成上述步驟 1 並建立網域後，您會看到**歡迎使用 Amazon DataZone！** 視窗。在此視窗中，選擇**建立專案**。

1. 指定專案名稱，例如，針對此工作流程，您可以將其命名為 **SalesDataPublishingProject**，然後將其餘欄位保持不變，然後選擇**建立**。

## 步驟 3 - 建立環境
<a name="create-environment-gs-glue"></a>

本節說明為此工作流程建立環境所需的步驟。

1. 完成上述步驟 2 並建立專案後，您會看到**您的專案已準備好使用**視窗。在此視窗中，選擇**建立環境**。

1. 在**建立環境**頁面上，指定以下內容，然後選擇**建立環境**。

1. 指定下列項目的值：
   + **名稱** - 指定環境的名稱。對於本演練，您可以呼叫它 `Default data lake environment`。
   + **描述** - 指定環境的描述。
   + **環境設定檔** - 選擇 **DataLakeProfile** 環境設定檔。這可讓您在此工作流程中使用 Amazon DataZone 來處理 Amazon S3、 AWS Glue Catalog 和 Amazon Athena 中的資料。
   + 在此演練中，其餘欄位保持不變。

1. 選擇 **Create environment** (建立環境)。

## 步驟 4 - 產生資料以進行發佈
<a name="produce-data-for-publishing-gs-glue"></a>

本節說明產生資料以在此工作流程中發佈所需的步驟。

1. 完成上述步驟 3 後，在`SalesDataPublishingProject`專案的右側面板的**分析工具**下，選擇 **Amazon Athena**。這會使用專案的登入資料來開啟 Athena 查詢編輯器以進行身分驗證。請確定已在 **Amazon DataZone 環境**下拉式清單中選取您的發佈環境，且`<environment_name>%_pub_db`資料庫已在查詢編輯器中選取為 。

1. 在此演練中，您使用**建立資料表為選取** (CTAS) 查詢指令碼來建立新的資料表，以便發佈至 Amazon DataZone。在您的查詢編輯器中，執行此 CTAS 指令碼來建立您可以發佈並可用於搜尋和訂閱的`mkt_sls_table`資料表。

   ```
   CREATE TABLE mkt_sls_table AS
   SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id
   UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551
   UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565
   UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563
   UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562
   UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555
   UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556
   UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551
   UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563
   UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557
   UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561
   ```

   請確定已在左側**的資料表和檢視**區段中成功建立 **mkt\$1sls\$1table** 資料表。現在您有一個資料資產可以發佈到 Amazon DataZone 目錄。

## 步驟 5 - 從 Glue AWS 收集中繼資料
<a name="gather-metadata-from-glue-gs-glue"></a>

本節說明從 Glue AWS 收集此工作流程中繼資料的步驟。

1. 完成上述步驟 4 後，請在 Amazon DataZone 資料入口網站中選擇`SalesDataPublishingProject`專案，然後選擇**資料**索引標籤，然後在左側面板中選擇**資料來源**。

1. 選擇在環境建立程序中建立的來源。

1. 選擇**動作**下拉式功能表旁的**執行**，然後選擇重新整理按鈕。資料來源執行完成後，資產會新增至 Amazon DataZone 庫存。

## 步驟 6 - 整理和發佈資料資產
<a name="curate-data-asset-gs-glue"></a>

本節說明在此工作流程中策劃和發佈資料資產的步驟。

1. 完成上述步驟 5 後，請在 Amazon DataZone 資料入口網站中選擇您在上一個步驟中建立的`SalesDataPublishingProject`專案、選擇**資料**索引標籤、選擇左側面板中的**庫存資料**，然後尋找`mkt_sls_table`資料表。

1. 開啟`mkt_sls_table`資產的詳細資訊頁面，以查看自動產生的商業名稱。選擇**自動產生的中繼資料**圖示，以檢視資產和資料欄的自動產生名稱。您可以個別接受或拒絕每個名稱，或選擇**全部接受**以套用產生的名稱。或者，您也可以將可用的中繼資料表單新增至資產，然後選取詞彙表詞彙來分類資料。

1. 選擇**發佈資產**以發佈`mkt_sls_table`資產。

## 步驟 7 - 建立用於資料分析的專案
<a name="create-project-for-data-analysis-gs-glue"></a>

本節說明為資料分析建立專案的步驟。這是此工作流程資料取用者步驟的開始。

1. 完成上述步驟 6 後，請在 Amazon DataZone 資料入口網站中，從專案下拉式功能表中選擇**建立****專案**。

1. 在**建立專案**頁面上，指定專案名稱，例如，針對此工作流程，您可以將它命名為 **MarketingDataAnalysisProject**，然後將其餘欄位保持不變，然後選擇**建立**。

## 步驟 8 - 建立用於資料分析的環境
<a name="create-environment-gs2-glue"></a>

本節說明建立 環境以進行資料分析的步驟。

1. 完成上述步驟 7 後，請在 Amazon DataZone 資料入口網站中選擇`MarketingDataAnalysisProject`專案，然後選擇**環境**索引標籤，然後選擇**建立環境**。

1. 在**建立環境**頁面上，指定以下內容，然後選擇**建立環境**。
   + **名稱** - 指定環境的名稱。對於本演練，您可以呼叫它 `Default data lake environment`。
   + **描述** - 指定環境的描述。
   + **環境設定檔** - 選擇內建的 **DataLakeProfile** 環境設定檔。
   + 在此演練中，其餘欄位保持不變。

## 步驟 9 - 搜尋資料目錄並訂閱資料
<a name="search-catalog-subscribe-gs-glue"></a>

本節說明搜尋資料目錄和訂閱資料的步驟。

1. 完成上述步驟 8 後，請在 Amazon DataZone 資料入口網站中選擇 Amazon DataZone 圖示，然後在 Amazon DataZone **搜尋**欄位中，使用資料入口網站搜尋列中的關鍵字 （例如 'catalog' 或 'sales') **搜尋**資料資產。

   如有必要，請套用篩選條件或排序，一旦找到**產品銷售資料**資產，您可以選擇它來開啟資產的詳細資訊頁面。

1. 在**目錄銷售資料**資產的詳細資訊頁面上，選擇**訂閱**。

1. 在**訂閱**對話方塊中，從下拉式清單中選擇您的 **MarketingDataAnalysisProject** 取用者專案，然後指定訂閱請求的原因，然後選擇**訂閱**。

## 步驟 10 - 核准訂閱請求
<a name="approve-subscription-request-gs-glue"></a>

本節說明核准訂閱請求的步驟。

1. 完成上述步驟 9 後，請在 Amazon DataZone 資料入口網站中選擇您發佈資產的 **SalesDataPublishingProject** 專案。

1. 選擇**資料**索引標籤，然後選擇**傳入請求******。

1. 現在，您可以看到需要核准之新請求的資料列。選擇**檢視請求**。提供核准原因，然後選擇**核准**。

## 步驟 11 - 在 Amazon Athena 中建立查詢和分析資料
<a name="analyze-data-gs-glue"></a>

現在您已成功將資產發佈至 Amazon DataZone 目錄並訂閱該目錄，您可以對其進行分析。

1. 在 Amazon DataZone 資料入口網站中，選擇您的 **MarketingDataAnalysisProject** 取用者專案，然後從右側面板的**分析工具**下，選擇使用 Amazon Athena **查詢資料**連結。這會使用專案的登入資料來開啟 Amazon Athena 查詢編輯器以進行身分驗證。從查詢編輯器的 **Amazon DataZone Environment** 下拉式清單中選擇 **MarketingDataAnalysisProject** 取用者環境，然後從`<environment_name>%sub_db`資料庫下拉式清單中選擇專案的 。

1. 您現在可以在訂閱的資料表上執行查詢。您可以從**資料表和檢視**中選擇資料表，然後選擇**預覽**以在編輯器畫面上具有選取陳述式。執行查詢以查看結果。