AWS Glue 데이터를 사용한 Amazon DataZone 빠른 시작 - Amazon DataZone

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue 데이터를 사용한 Amazon DataZone 빠른 시작

다음 빠른 시작 단계를 완료하여 샘플 AWS Glue 데이터를 DataZone 사용하여 Amazon에서 전체 데이터 생산자 및 데이터 소비자 워크플로를 실행합니다.

1단계 - Amazon DataZone 도메인 및 데이터 포털 생성

이 섹션에서는 이 워크플로에 대한 Amazon DataZone 도메인 및 데이터 포털을 생성하는 단계를 설명합니다.

Amazon DataZone 도메인을 생성하려면 다음 절차를 완료하세요. Amazon DataZone 도메인에 대한 자세한 내용은 섹션을 참조하세요Amazon DataZone 용어 및 개념.

  1. https://console.aws.amazon.com/datazone의 Amazon DataZone 콘솔로 이동하여 로그인한 다음 도메인 생성을 선택합니다.

    참고

    이 워크플로에 기존 Amazon DataZone 도메인을 사용하려면 도메인 보기를 선택한 다음 사용하려는 도메인을 선택한 다음 게시 프로젝트 생성의 2단계로 이동합니다.

  2. 도메인 생성 페이지에서 다음 필드에 값을 입력합니다.

    • 이름 - 도메인의 이름을 지정합니다. 이 워크플로를 위해 이 도메인 마케팅 을 호출할 수 있습니다.

    • 설명 - 선택적 도메인 설명을 지정합니다.

    • 데이터 암호화 - 기본적으로 데이터를 AWS 소유하고 관리하는 키로 암호화됩니다. 이 사용 사례의 경우 기본 데이터 암호화 설정을 그대로 둘 수 있습니다.

      고객 관리형 키 사용에 대한 자세한 내용은 섹션을 참조하세요Amazon에 대한 저장 데이터 암호화 DataZone. 데이터 암호화에 자체 KMS 키를 사용하는 경우 기본 에 다음 문을 포함해야 합니다AmazonDataZoneDomainExecutionRole.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • 서비스 액세스 - 기본적으로 선택한 상태로 둡니다. 기본 역할 사용 옵션은 변경되지 않습니다.

      참고

      이 워크플로에 기존 Amazon DataZone 도메인을 사용하는 경우 기존 서비스 역할 사용 옵션을 선택한 다음 드롭다운 메뉴에서 기존 역할을 선택할 수 있습니다.

    • 빠른 설정에서 데이터 소비 및 게시를 위해 이 계정 설정을 선택합니다. 이 옵션은 데이터 레이크데이터 웨어하우스 의 기본 제공 Amazon DataZone 청사진을 활성화하고 이 계정에 필요한 권한, 리소스, 기본 프로젝트, 기본 데이터 레이크 및 데이터 웨어하우스 환경 프로필을 구성합니다. Amazon DataZone 청사진에 대한 자세한 내용은 섹션을 참조하세요Amazon DataZone 용어 및 개념.

    • 권한 세부 정보 아래의 나머지 필드는 변경하지 않습니다.

      참고

      기존 Amazon DataZone 도메인이 있는 경우 기존 서비스 역할 사용 옵션을 선택한 다음 Glue Manage Access 역할 , Redshift Manage Access 역할 및 프로비저닝 역할 에 대한 드롭다운 메뉴에서 기존 역할을 선택할 수 있습니다.

    • 태그 아래의 필드는 변경되지 않습니다.

    • 도메인 생성(Create domain)을 선택합니다.

  3. 도메인이 성공적으로 생성되면 이 도메인을 선택하고 도메인의 요약 페이지에서 이 도메인의 데이터 포털URL을 기록해 둡니다. 이를 사용하여 Amazon DataZone 데이터 포털에 URL 액세스하여 이 워크플로의 나머지 단계를 완료할 수 있습니다. 데이터 포털 열기 를 선택하여 데이터 포털로 이동할 수도 있습니다.

참고

Amazon 의 현재 릴리스에서 도메인이 생성 DataZone되면 데이터 포털에 대해 URL 생성된 를 수정할 수 없습니다.

도메인 생성을 완료하는 데 몇 분 정도 걸릴 수 있습니다. 다음 단계로 진행하기 전에 도메인의 상태가 사용 가능이 될 때까지 기다립니다.

2단계 - 게시 프로젝트 생성

이 섹션에서는 이 워크플로에 대한 게시 프로젝트를 생성하는 데 필요한 단계를 설명합니다.

  1. 위의 1단계를 완료하고 도메인을 생성하면 Amazon에 오신 것을 환영합니다 DataZone! 창이 표시됩니다. 이 창에서 프로젝트 생성을 선택합니다.

  2. 프로젝트 이름을 지정합니다. 예를 들어, 이 워크플로의 경우 이름을 지정한 SalesDataPublishingProject다음 나머지 필드를 변경하지 않은 상태로 두고 생성을 선택합니다.

3단계 - 환경 생성

이 섹션에서는 이 워크플로의 환경을 생성하는 데 필요한 단계를 설명합니다.

  1. 위의 2단계를 완료하고 프로젝트를 생성하면 프로젝트를 사용할 준비가 된 창이 표시됩니다. 이 창에서 환경 생성을 선택합니다.

  2. 환경 생성 페이지에서 다음을 지정한 다음 환경 생성을 선택합니다.

  3. 다음 값을 지정합니다.

    • 이름 - 환경의 이름을 지정합니다. 이 연습에서는 라고 부를 수 있습니다Default data lake environment.

    • 설명 - 환경에 대한 설명을 지정합니다.

    • 환경 프로파일 - DataLakeProfile 환경 프로파일을 선택합니다. 이를 통해 이 워크플로 DataZone 에서 Amazon을 사용하여 Amazon S3, AWS Glue Catalog 및 Amazon Athena 의 데이터를 사용할 수 있습니다.

    • 이 연습을 위해 나머지 필드는 변경하지 않습니다.

  4. 환경 생성을 선택합니다.

4단계 - 게시를 위한 데이터 생성

이 섹션에서는 이 워크플로에 게시하기 위한 데이터를 생성하는 데 필요한 단계를 설명합니다.

  1. 위의 3단계를 완료한 후 SalesDataPublishingProject 프로젝트에서 오른쪽 패널의 분석 도구 아래에서 Amazon Athena 선택합니다. 이렇게 하면 인증을 위해 프로젝트의 보안 인증 정보를 사용하여 Athena 쿼리 편집기가 열립니다. Amazon 환경 드롭다운에서 게시 DataZone 환경을 선택하고 쿼리 편집기에서와 같이 <environment_name>%_pub_db 데이터베이스를 선택해야 합니다.

  2. 이 연습에서는 테이블 생성을 선택() 쿼리 스크립트로 사용하여 Amazon 에 게시할 새 테이블을 생성합니다 DataZone.CTAS 쿼리 편집기에서 이 CTAS 스크립트를 실행하여 게시하고 검색 및 구독에 사용할 수 있는 mkt_sls_table 테이블을 생성합니다.

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    왼쪽의 테이블 및 보기 섹션에서 mkt_sls_table 테이블이 성공적으로 생성되었는지 확인합니다. 이제 Amazon DataZone 카탈로그에 게시할 수 있는 데이터 자산이 있습니다.

5단계 - Glue에서 AWS 메타데이터 수집

이 섹션에서는 이 워크플로를 위해 AWS Glue에서 메타데이터를 수집하는 단계를 설명합니다.

  1. 위의 4단계를 완료한 후 Amazon DataZone 데이터 포털에서 SalesDataPublishingProject 프로젝트를 선택한 다음 데이터 탭을 선택하고 왼쪽 패널에서 데이터 소스를 선택합니다.

  2. 환경 생성 프로세스의 일부로 생성된 소스를 선택합니다.

  3. 작업 드롭다운 메뉴 옆의 실행을 선택한 다음 새로 고침 버튼을 선택합니다. 데이터 소스 실행이 완료되면 자산이 Amazon DataZone 인벤토리에 추가됩니다.

6단계 - 데이터 자산 큐레이트 및 게시

이 섹션에서는 이 워크플로에서 데이터 자산을 큐레이팅하고 게시하는 단계를 설명합니다.

  1. 위의 5단계를 완료한 후 Amazon DataZone 데이터 포털에서 이전 단계에서 생성한 SalesDataPublishingProject 프로젝트를 선택하고 데이터 탭을 선택한 다음 왼쪽 패널에서 인벤토리 데이터를 선택하고 mkt_sls_table 테이블을 찾습니다.

  2. mkt_sls_table 자산의 세부 정보 페이지를 열어 자동으로 생성된 비즈니스 이름을 확인합니다. 자산 및 열에 대해 자동 생성된 이름을 보려면 자동 생성된 메타데이터 아이콘을 선택합니다. 각 이름을 개별적으로 수락하거나 거부하거나 모두 수락을 선택하여 생성된 이름을 적용할 수 있습니다. 선택적으로 사용 가능한 메타데이터 양식을 자산에 추가하고 용어집 용어를 선택하여 데이터를 분류할 수도 있습니다.

  3. 자산 게시를 선택하여 mkt_sls_table 자산을 게시합니다.

7단계 - 데이터 분석을 위한 프로젝트 생성

이 섹션에서는 데이터 분석을 위한 프로젝트를 생성하는 단계를 설명합니다. 이는 이 워크플로의 데이터 소비자 단계의 시작입니다.

  1. 위의 6단계를 완료한 후 Amazon DataZone 데이터 포털의 프로젝트 드롭다운 메뉴에서 프로젝트 생성을 선택합니다.

  2. 프로젝트 생성 페이지에서 프로젝트 이름을 지정합니다. 예를 들어 이 워크플로의 경우 이름을 지정한 MarketingDataAnalysisProject다음 나머지 필드를 변경하지 않고 그대로 두고 생성을 선택합니다.

8단계 - 데이터 분석을 위한 환경 생성

이 섹션에서는 데이터 분석을 위한 환경을 생성하는 단계를 설명합니다.

  1. 위의 7단계를 완료한 후 Amazon DataZone 데이터 포털에서 MarketingDataAnalysisProject 프로젝트를 선택한 다음 환경 탭을 선택하고 환경 생성을 선택합니다.

  2. 환경 생성 페이지에서 다음을 지정한 다음 환경 생성을 선택합니다.

    • 이름 - 환경의 이름을 지정합니다. 이 연습에서는 라고 부를 수 있습니다Default data lake environment.

    • 설명 - 환경에 대한 설명을 지정합니다.

    • 환경 프로파일 - 기본 제공 DataLakeProfile 환경 프로파일을 선택합니다.

    • 이 연습을 위해 나머지 필드는 변경하지 않습니다.

9단계 - 데이터 카탈로그 검색 및 데이터 구독

이 섹션에서는 데이터 카탈로그를 검색하고 데이터를 구독하는 단계를 설명합니다.

  1. 위의 8단계를 완료하면 Amazon DataZone 데이터 포털에서 Amazon DataZone 아이콘을 선택하고 Amazon DataZone 검색 필드에서 데이터 포털의 검색 표시줄에서 키워드(예: '카탈로그' 또는 '판매')를 사용하여 데이터 자산을 검색합니다.

    필요한 경우 필터 또는 정렬을 적용하고 제품 판매 데이터 자산을 찾으면 이를 선택하여 자산의 세부 정보 페이지를 열 수 있습니다.

  2. 카탈로그 판매 데이터 자산의 세부 정보 페이지에서 구독을 선택합니다.

  3. 구독 대화 상자에서 드롭다운에서 MarketingDataAnalysisProject 소비자 프로젝트를 선택한 다음 구독 요청 이유를 지정한 다음 구독을 선택합니다.

10단계 - 구독 요청 승인

이 섹션에서는 구독 요청을 승인하는 단계를 설명합니다.

  1. 위의 9단계를 완료한 후 Amazon DataZone 데이터 포털에서 자산을 게시한 SalesDataPublishingProject 프로젝트를 선택합니다.

  2. 데이터 탭을 선택한 다음 게시된 데이터 를 선택한 다음 수신 요청 을 선택합니다.

  3. 이제 승인이 필요한 새 요청의 행을 볼 수 있습니다. 요청 보기를 선택합니다. 승인 이유를 입력하고 승인을 선택합니다.

11단계 - Amazon Athena에서 쿼리를 빌드하고 데이터를 분석합니다.

이제 Amazon DataZone 카탈로그에 자산을 성공적으로 게시하고 구독했으므로 분석할 수 있습니다.

  1. Amazon DataZone 데이터 포털에서 MarketingDataAnalysisProject 소비자 프로젝트를 선택한 다음 오른쪽 패널의 분석 도구 에서 Amazon Athena 를 사용하여 데이터 쿼리 링크를 선택합니다. 이렇게 하면 인증을 위해 프로젝트의 보안 인증 정보를 사용하여 Amazon Athena 쿼리 편집기가 열립니다. 쿼리 편집기의 Amazon DataZone 환경 드롭다운에서 MarketingDataAnalysisProject 소비자 환경을 선택한 다음 데이터베이스 드롭다운<environment_name>%sub_db에서 프로젝트를 선택합니다.

  2. 이제 구독한 테이블에서 쿼리를 실행할 수 있습니다. 테이블 및 뷰 에서 테이블을 선택한 다음 미리 보기를 선택하여 편집기 화면에 선택한 문을 표시할 수 있습니다. 쿼리를 실행하여 결과를 확인합니다.