Amazon DataZone 용어 및 개념 - Amazon DataZone

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon DataZone 용어 및 개념

Amazon DataZone은 AWS, 온프레미스 및 서드파티 소스에 저장된 데이터를 더 빠르고 쉽게 카탈로그화, 검색, 공유 및 관리할 수 있는 데이터 관리 서비스입니다. Amazon DataZone을 사용하면 조직의 데이터 자산을 감독하는 관리자 및 데이터 관리자는 세분화된 제어를 사용하여 데이터에 대한 액세스를 관리하고 제어할 수 있습니다. 이러한 제어는 적절한 수준의 권한 및 컨텍스트를 사용하여 액세스를 보장하도록 설계되었습니다. Amazon DataZone을 사용하면 엔지니어, 데이터 과학자, 제품 관리자, 분석가 및 비즈니스 사용자가 조직 전체에서 데이터에 더 쉽게 액세스하여 데이터 기반 인사이트를 검색, 사용 및 협업할 수 있습니다.

Amazon DataZone을 시작할 때 주요 개념, 용어 및 구성 요소를 이해하는 것이 중요합니다.

Amazon DataZone 구성 요소

Amazon DataZone에는 다음과 같은 네 가지 주요 구성 요소가 포함되어 있습니다.

  • 비즈니스 데이터 카탈로그 - 이 구성 요소를 사용하여 비즈니스 컨텍스트로 조직 전반의 데이터를 카탈로그화할 수 있으므로 조직의 모든 사람이 데이터를 빠르게 찾고 이해할 수 있습니다.

  • 워크플로 게시 및 구독 - 이러한 자동화된 워크플로를 사용하여 생산자와 소비자 간의 데이터를 셀프 서비스 방식으로 보호하고 조직의 모든 사람이 올바른 목적에 맞는 데이터에 액세스할 수 있도록 할 수 있습니다.

  • 프로젝트 및 환경

    • Amazon DataZone 프로젝트에는 AWS 분석 액세스를 단순화하는 데 사용되는 사람, 자산(데이터) 및 도구의 비즈니스 사용 사례 기반 그룹화가 있습니다. 프로젝트는 프로젝트 구성원이 협업하고, 데이터를 교환하고, 자산을 공유할 수 있는 영역을 제공합니다. 기본적으로 프로젝트는 프로젝트에 명시적으로 추가된 사용자만 해당 프로젝트 내의 데이터 및 분석 도구에 액세스할 수 있도록 구성됩니다. 프로젝트는 데이터 소비자가 액세스할 수 있는 프로젝트 정책에 따라 생성된 자산의 소유권을 관리합니다.

    • Amazon DataZone 프로젝트 내에서 환경은 0개 이상의 구성된 리소스(예: Amazon S3 버킷, AWS Glue 데이터베이스 또는 Amazon Athena 작업 그룹) 모음으로, 지정된 IAM 위탁자 집합(예: 기여자 권한이 있는 사용자)이 작동할 수 있습니다.

  • 데이터 포털(AWS Management Console 외부) - 다양한 사용자가 셀프 서비스 방식으로 데이터를 카탈로그화, 검색, 관리, 공유 및 분석할 수 있는 브라우저 기반 웹 애플리케이션입니다. 데이터 포털은 AWS IAM Identity Center을 통해 IAM 자격 증명 또는 자격 증명 공급자의 기존 자격 증명으로 사용자를 인증합니다.

Amazon DataZone 도메인이란 무엇인가요?

Amazon DataZone 도메인을 사용하여 자산, 사용자, 프로젝트를 구성할 수 있습니다. 추가 AWS 계정을 Amazon DataZone 도메인과 연결하면 데이터 소스를 통합할 수 있습니다. 그런 다음 메타데이터 양식과 용어집을 사용하여 이러한 데이터 소스의 자산을 도메인의 카탈로그에 게시하여 메타데이터 완전성과 품질을 개선할 수 있습니다. 이러한 자산을 검색하고 검색하여 도메인에 게시된 데이터를 확인할 수도 있습니다. 또한 프로젝트에 참여하여 다른 사용자와 협업하고, 자산을 구독하고, 프로젝트 환경을 사용하여 Amazon Athena 및 Amazon Redshift를 포함한 분석 도구에 액세스할 수 있습니다. Amazon DataZone 도메인을 사용하면 기업에 대한 단일 Amazon DataZone 도메인을 생성하든 다른 사업부에 대한 여러 Amazon DataZone 도메인을 생성하든 관계없이 조직 구조의 데이터 및 분석 요구 사항을 유연하게 반영할 수 있습니다.

Amazon DataZone 프로젝트 및 환경이란 무엇인가요?

Amazon DataZone을 사용하면 팀과 분석 사용자가 팀, 도구 및 데이터의 사용 사례 기반 그룹화를 생성하여 프로젝트에서 협업할 수 있습니다.

  • Amazon DataZone에서 프로젝트를 통해 사용자 그룹은 Amazon DataZone 카탈로그에서 데이터를 게시, 검색, 구독, 사용하는 다양한 비즈니스 사용 사례에 대해 협업할 수 있습니다. 프로젝트 멤버는 Amazon DataZone 카탈로그에서 자산을 사용하고 하나 이상의 분석 워크플로를 사용하여 새로운 자산을 생성합니다. 프로젝트는 데이터 포털 내에서 다음 활동을 지원합니다.

    • 프로젝트 소유자는 소유자, 기여자, 소비자, 관리인 및 최종 사용자 권한이 있는 구성원 추가 가능

    • 프로젝트 구성원은 SSO 사용자, SSO 그룹 및 IAM 사용자일 수 있음

    • 프로젝트 구성원은 데이터 카탈로그의 자산에 대한 구독을 요청할 수 있음

      프로젝트에 구독 승인 제공

    프로젝트 생성/삭제

    프로젝트 프로파일 생성/삭제 환경 프로파일 생성/삭제 환경 생성/삭제 프로젝트에 구성원 추가/삭제 검색 및 발견 메타데이터 양식/용어 생성/삭제 데이터 소스 실행 생성 및 데이터 수집 데이터 게시 구독 요청 구독 요청 승인/거부 Amazon Athena 및 Amazon Redshift에서 구독 데이터 읽기
    소유자 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리
    기고자 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 아니요
    소비자 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리

    아니요

    아니요

    아니요

    아니요

    아니요

    뷰어 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리

    아니요

    아니요

    아니요

    아니요

    아니요

    아니요

    스튜어드 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리

    아니요

    아니요

  • Amazon DataZone 프로젝트에서 환경은 0개 이상의 구성된 리소스(예: Amazon S3, AWS Glue 데이터베이스 또는 Amazon Athena 작업 그룹)의 컬렉션으로, 해당 리소스에서 작동할 수 있는 지정된 IAM 위탁자 집합이 있습니다. 환경은 환경을 생성하기 위해 재사용 가능한 템플릿을 제공하는 미리 구성된 리소스 및 블루프린트 세트인 환경 프로파일을 사용하여 생성됩니다. 환경 프로파일은 환경이 배포되는 AWS 계정 또는 리전과 같은 설정을 정의합니다.

Amazon DataZone 블루프린트란 무엇인가요?

환경이 생성되는 블루프린트는 환경이 속한 프로젝트의 AWS 도구 및 서비스(예: AWS Glue 또는 Amazon Redshift) 구성원이 Amazon DataZone 카탈로그의 자산으로 작업할 때 사용할 수 있는 도구를 정의합니다.

Amazon DataZone의 현재 릴리스에서는 다음과 같은 기본 블루프린트가 지원됩니다.

블루프린트 이름 설명 생성할 리소스
데이터 레이크 블루프린트

Amazon DataZone 프로젝트 구성원이 환경 내에서 데이터 레이크 생산자 및 소비자 서비스를 시작할 수 있도록 합니다.

소비자 로서 Amazon DataZone 프로젝트 구성원이 Amazon Athena 및 기타 Lake Formation 지원 쿼리 엔진에서 직접 Lake Formation 관리 자산의 '읽기 전용' 사본에 액세스할 수 있습니다.

생산자인 Amazon DataZone 프로젝트 구성원은 Amazon Athena를 사용하여 새로운 LakeFormation 관리형 테이블을 생성하고 Amazon DataZone 카탈로그에 게시할 수 있습니다.

사용자에게 Amazon Athena 를 사용하여 Lake Formation 테이블을 생성하고 쿼리할 수 있는 기능을 제공합니다. Amazon Athena 작업 그룹, '읽기 전용' Lake Formation 권한, '읽기 전용' IAM 권한 및 프로젝트에서 관리하는 Amazon S3에 대한 액세스가 있는 AWS Glue 데이터베이스. '생성' 및 '승인' Lake Formation 권한, '읽기' 및 '쓰기' IAM 권한, 태그 지정이 있는 AWS Glue ETL(추출, 변환 및 로드)이 있는 AWS Glue 데이터베이스.
데이터 웨어하우스 블루프린트

소비자 로서 이 블루프린트를 통해 Amazon DataZone 프로젝트 구성원은 자체 Amazon Redshift 클러스터에 연결하여 원격 데이터 스토어를 쿼리하고 새 데이터세트를 생성하고 저장할 수 있습니다.

생산자인 이 블루프린트를 통해 Amazon DataZone 프로젝트 구성원은 자체 Amazon Redshift 클러스터에 연결하여 원격 데이터 스토어를 쿼리하고, 새 데이터세트를 생성하고, Amazon DataZone 카탈로그에 게시할 수 있습니다.

Amazon Redshift Query Editor에 대한 액세스, Amazon DataZone 카탈로그에서 구독한 데이터 소스에 대한 '읽기' 액세스, 구성된 Amazon Redshift 클러스터에서 로컬 자산을 생성하는 기능. Amazon Redshift Query Editor에 대한 액세스, Amazon DataZone 카탈로그에서 구독한 데이터 소스에 대한 '읽기' 액세스, 구성된 Amazon Redshift 클러스터에서 자산을 생성하고 게시하는 기능.
Amazon Sagemaker 블루프린트

이 블루프린트는 데이터 생산자와 소비자가 Amazon SageMaker로 원활하게 전환하여 기계 학습(ML) 프로젝트에서 협업하는 동시에 데이터 및 ML 자산에 대한 액세스 거버넌스를 적용하는 데 도움이 됩니다. Amazon DataZone과 Amazon SageMaker 간의 새로운 내장 통합을 통해 데이터 소비자와 생산자는 인프라 설정 전반에 걸쳐 ML 거버넌스를 간소화하고, 비즈니스 이니셔티브에 협력하고, 데이터 및 ML 자산을 쉽게 관리할 수 있습니다.

Amazon DataZone에서 데이터 및 ML 자산을 검색, 구독 및 게시할 수 있는 Amazon SageMaker 도메인을 생성할 수 있습니다. 또한 구성된 대로 AWS Glue 데이터베이스 및 레이크 형성을 구독하고 게시할 수 있습니다.

Amazon DataZone 인벤토리 및 게시 워크플로란 무엇인가요?

프로젝트 인벤토리 자산 생성

Amazon DataZone을 사용하여 데이터를 카탈로그화하려면 먼저 Amazon DataZone에서 프로젝트 인벤토리로 데이터(자산)를 가져와야 합니다. 프로젝트의 인벤토리를 생성하면 해당 프로젝트의 구성원만 자산을 검색할 수 있습니다. 프로젝트 인벤토리 자산은 명시적으로 게시되지 않는 한 검색/찾아보기에서 모든 도메인 사용자가 사용할 수 있는 것은 아닙니다. Amazon DataZone의 현재 릴리스에서는 다음과 같은 방법으로 프로젝트 인벤토리에 자산을 추가할 수 있습니다.

  • 데이터 포털을 통해 또는 Amazon DataZone API를 사용하여 데이터 소스를 생성하고 실행합니다. Amazon DataZone 의 현재 릴리스에서는 AWS Glue 및 Amazon Redshift에 대한 데이터 소스를 생성하고 실행할 수 있습니다. AWS Glue 또는 Amazon Redshift 데이터 소스를 생성하고 실행하면 선택한 프로젝트 인벤토리에 자산을 생성하고 소스 데이터베이스 테이블 또는 데이터 웨어하우스에서 해당 기술 메타데이터를 인벤토리로 Amazon DataZone으로 가져옵니다.

  • API를 사용하여 사용 가능한 시스템 자산 유형(AWS Glue, Amazon Redshift, Amazon S3 객체) 또는 사용자 지정 자산 유형에서 자산을 생성할 수 있습니다.

    • Amazon DataZone API를 사용하여 프로젝트 인벤토리에 사용자 지정 자산 유형을 생성합니다. 사용자 지정 자산 유형에는 ML 모델, 대시보드, 온프레미스 테이블 등이 포함될 수 있습니다.

    • Amazon DataZone API를 사용하여 이러한 사용자 지정 자산 유형에서 자산을 생성합니다.

  • Amazon DataZone 데이터 포털을 사용하여 S3 객체에 대한 자산을 수동으로 생성합니다.

프로젝트 인벤토리 자산 큐레이팅 - 프로젝트 인벤토리를 생성한 후 데이터 소유자는 비즈니스 이름(자산 및 스키마), 설명(자산 및 스키마), README, 용어집 용어(자산 및 스키마) 및 메타데이터 양식을 추가하거나 업데이트하여 필요한 비즈니스 메타데이터로 인벤토리 자산을 큐레이팅할 수 있습니다. 데이터 포털을 통해 또는 Amazon DataZone API를 사용해 이를 수행할 수 있습니다. 자산을 편집할 때마다 새 인벤토리 버전이 생성됩니다.

Amazon DataZone 카탈로그에 프로젝트 인벤토리 자산 게시

Amazon DataZone을 사용하여 데이터를 카탈로그화하는 다음 단계는 도메인 사용자가 프로젝트의 인벤토리 자산을 검색할 수 있도록 하는 것입니다. Amazon DataZone 카탈로그에 인벤토리 자산을 게시하여 이 작업을 수행할 수 있습니다. 최신 버전의 인벤토리 자산만 카탈로그에 게시할 수 있으며 최신 게시 버전만 검색 카탈로그에서 활성화됩니다. 인벤토리 자산이 Amazon DataZone 카탈로그에 게시된 후 업데이트되는 경우 최신 버전이 검색 카탈로그에 포함되도록 다시 명시적으로 게시해야 합니다. Amazon DataZone의 현재 릴리스에서는 다음과 같은 방법으로 프로젝트 인벤토리 자산을 Amazon DataZone 카탈로그에 게시할 수 있습니다.

  • 데이터 포털을 통해 또는 Amazon DataZone API를 사용하여 Amazon DataZone 카탈로그에 프로젝트 인벤토리 자산을 수동으로 게시합니다.

  • 데이터 소스 생성 또는 편집의 일환으로 선택적으로 AWS Glue 자산을 카탈로그에 게시하거나 Amazon Redshift 자산을 카탈로그 설정에 게시하여 예약되거나 자동화된 데이터 소스 실행 중에 사용할 수 있도록 합니다. 이 설정이 활성화되면 데이터 소스 실행은 프로젝트의 인벤토리에 자산을 추가한 다음 인벤토리 자산을 Amazon DataZone 카탈로그에 게시합니다. 직접 게시하는 경우 자산에 비즈니스 메타데이터가 없을 수 있으며 모든 도메인 사용자가 직접 검색할 수 있습니다. 데이터 포털을 통해 또는 Amazon DataZone API를 사용해 데이터 소스에서 이 설정을 사용할 수 있습니다.

Amazon DataZone 구독 및 이행 워크플로란 무엇인가요?

자산이 Amazon DataZone 카탈로그에 게시되면 도메인 사용자는 이러한 자산을 검색하고, 이러한 자산에 대한 액세스를 요청하고 획득하며, Amazon DataZone을 사용하여 이러한 자산을 관리, 공유 및 분석할 수 있습니다.

사용자는 프로젝트를 대신하여 해당 자산을 구독하여 자산에 대한 액세스를 요청합니다. 구독 요청이 생성되면 자산 소유자는 알림을 받고 구독 요청을 검토하고 승인 또는 거부 여부를 결정할 수 있습니다. 데이터 소유자가 구독 요청을 승인하면 구독 프로젝트에 해당 자산에 대한 액세스 권한이 부여됩니다.

구독 요청이 승인되면 Amazon DataZone은 AWS Lake Formation 또는 Amazon Redshift에서 필요한 권한을 생성하여 프로젝트 내의 모든 해당 환경에 자산을 자동으로 추가하는 구독 이행 워크플로를 시작합니다. 이를 통해 구독 프로젝트 구성원은 환경에서 쿼리 도구(Amazon Athena 또는 Amazon Redshift Query Editor) 중 하나를 사용하여 자산을 쿼리할 수 있습니다.

Amazon DataZone은 관리형 자산에 대해서만 이 자동 이행 로직을 트리거할 수 있습니다(AWS Glue 테이블 및 Amazon Redshift 테이블 및 뷰 포함). 다른 모든 자산 유형(관리되지 않는 자산)의 경우 Amazon DataZone은 이행을 자동으로 트리거할 수 없으며 대신 Amazon DataZone 외부에서 필요한 권한을 생성할 수 있도록 이벤트 페이로드에 필요한 모든 세부 정보가 포함된 이벤트를 Amazon Eventbridge에 게시합니다. 또한 Amazon DataZone은 Amazon DataZone 외부에서 구독이 이행되면 구독 상태를 업데이트할 수 있는 updateSubscriptionStatus API를 제공하므로 Amazon DataZone은 프로젝트 구성원에게 자산 소비를 시작할 수 있음을 알릴 수 있습니다.

Amazon DataZone의 사용자 페르소나

다음은 기본 Amazon DataZone 사용자 페르소나입니다.

  • Amazon DataZone을 조직의 분석 플랫폼으로 설정하는 도메인 관리자입니다.

    Amazon DataZone 의 맥락에서 도메인 관리자는 AWS 계정에 Amazon DataZone을 설치하고, Amazon DataZone 도메인을 생성하고, Amazon DataZone 도메인과 AWS 계정 연결 및 자격 증명 공급자 연결을 구성합니다. 도메인 관리자는 AWS Organization and Service Catalog와 같은 다른 AWS 서비스 콘솔을 사용하여 Amazon DataZone 을 구성합니다.

  • 분석 및 기계 학습 작업을 위한 Amazon DataZone(자산 게시자 및 구독자)의 주요 사용자인 데이터 사용자입니다.

    데이터 사용자에는 데이터 분석 작업자, 데이터 과학자 및 데이터 자산을 생산하고 소비하는 시스템 사용자가 포함됩니다. Amazon DataZone의 맥락에서 데이터 사용자는 프로젝트 및 환경을 생성 및 조인하고, 사전 구성된 분석 또는 기계 학습 도구를 사용하여 데이터 자산을 구독 및 소비하고, 출력 데이터 자산을 Amazon DataZone 도메인 카탈로그에 다시 게시하여 다른 사용자와 공유합니다.

  • 사용자 지정 인프라 템플릿을 구축하고 Amazon DataZone을 내부 카탈로그 또는 프로덕션 시스템과 통합하는 시스템 개발자입니다.

    Amazon DataZone의 맥락에서 시스템 개발자는 환경 블루프린트(인프라 템플릿) 또는 환경 공급자인 Infrastructure-As-Code CI/CD 파이프라인, 환경 전반의 데이터 자산을 홍보하는 데이터 파이프라인, 내부 카탈로그와 통합하기 위한 카탈로그 동기화 및 구독 권한 부여 이행 어댑터 또는 필요한 경우 Amazon DataZone API와 내부 사용자 인터페이스 또는 프로덕션 시스템 간의 통합을 구축합니다.

  • 조직 보안, 개인정보 보호 및 기타 규정 준수 정책의 정의와 위험을 소유하고 조직에서 Amazon DataZone을 사용하는 것이 이러한 정의를 준수하는지 확인하는 데이터 거버넌스 책임자.

Amazon DataZone 용어

도메인

Amazon DataZone 도메인은 자산, 사용자 및 프로젝트를 함께 연결하기 위한 조직 엔터티입니다. Amazon DataZone 도메인을 사용하면 기업을 위한 단일 Amazon DataZone 도메인 또는 여러 비즈니스 단위 또는 팀을 위한 여러 데이터 영역, 도메인을 생성하는지 여부에 관계없이 조직 구조의 데이터 및 분석 요구 사항을 유연하게 반영할 수 있습니다.

도메인 단위

도메인 단위를 사용하면 특정 사업부 및 팀에서 자산 및 기타 도메인 엔터티를 쉽게 구성할 수 있습니다. 조직의 비즈니스 단위 내에서, 그리고 비즈니스 단위 간에 안전하고 효율적인 데이터 공유를 설정하려면 Amazon DataZone 내에서 도메인 단위를 생성하고 각 비즈니스 단위 내에서 선택한 사용자가 로그인하여 카탈로그에 자산을 공유할 수 있도록 할 수 있습니다. 또한 도메인 단위를 사용하여 AWS 계정 소유자와 같은 리소스 소유자가 리소스에 Amazon DataZone 권한 부여 권한을 설정할 수 있습니다. 도메인 단위는 계정 소유자로부터 도메인 단위 소유자에게 위임된 권한을 제공하며 계정 소유자를 대신하여 환경 프로파일(블루프린트 구성을 사용하여 생성됨)에 대한 권한 부여 권한을 설정할 수 있습니다. 자세한 내용은 Amazon의 도메인 단위 및 권한 부여 정책 DataZone 단원을 참조하십시오.

권한 부여 정책

Amazon DataZone 권한 부여 정책은 프로젝트, 블루프린트, 환경, 용어집 및 메타데이터 양식과 같은 엔터티에 적용되는 Amazon DataZone 내의 제어 집합입니다. 이러한 정책은 Amazon DataZone 포털에서 이러한 엔터티를 생성하고 수명 주기를 관리할 수 있는 사용자를 정의합니다.

Amazon DataZone 도메인 단위 내에서 사용자 및 그룹에 다음 권한 부여 정책을 할당하여 특정 권한을 부여할 수 있습니다.

  • 도메인 단위 생성 정책

  • 프로젝트 생성 정책

  • 프로젝트 멤버십 정책

  • 도메인 단위 소유권 가정 정책

  • 프로젝트 소유권 가정 정책

자세한 내용은 Amazon DataZone 도메인 유닛 내의 사용자 및 그룹에 권한 부여 정책 할당 단원을 참조하십시오.

Amazon DataZone 도메인 단위 내에서 프로젝트에 다음 권한 부여 정책을 할당하여 특정 권한을 부여할 수 있습니다.

  • 용어집 생성 정책

  • 메타데이터 양식 생성 정책

  • 사용자 지정 자산 유형 생성 정책

자세한 내용은 Amazon DataZone 도메인 유닛 내의 프로젝트에 권한 부여 정책 할당 단원을 참조하십시오.

특정 블루프린트 구성 내에서 프로젝트 및 도메인 단위 소유자에게 다음과 같은 권한 부여 정책을 할당할 수 있습니다.

  • 이 블루프린트를 사용하여 환경 프로파일 생성 - 이 정책은 Amazon DataZone 프로젝트에 할당할 수 있으며 이 블루프린트를 사용하여 환경 프로파일을 생성할 수 있는 권한을 부여합니다.

  • 이 블루프린트를 사용하여 환경 프로파일을 생성할 수 있는 권한을 부여합니다. 이 정책은 도메인 단위 소유자에게 할당할 수 있으며 이 블루프린트를 사용하여 환경 프로파일을 생성할 수 있는 권한을 프로젝트에 부여합니다.

자세한 내용은 Amazon DataZone 블루프린트 구성 내에서 권한 부여 정책 할당 단원을 참조하십시오.

연결된 계정

AWS 계정을 Amazon DataZone 도메인과 연결하면 이러한 AWS 계정의 데이터를 Amazon DataZone 카탈로그에 게시하고 Amazon DataZone 프로젝트를 생성하여 여러 AWS 계정에서 데이터를 사용할 수 있습니다. 계정 연결 요청은 Amazon DataZone 도메인을 소유한 AWS 계정에서만 시작할 수 있습니다. 계정 연결 요청은 초대된 AWS 계정의 관리 사용자만 수락할 수 있습니다. AWS 계정이 Amazon DataZone 도메인과 연결되면 이 계정의 AWS Glue 카탈로그 및 Amazon Redshift와 같은 데이터 소스를 이 도메인에 등록할 수 있습니다. 또한 계정을 연결하면 AWS Amazon DataZone 프로젝트 및 환경을 생성할 수 있습니다.

AWS 계정은 하나 이상의 Amazon DataZone 도메인과 연결할 수 있습니다.

데이터 소스

Amazon DataZone에서, 소스 데이터베이스 또는 데이터 웨어하우스의 자산(데이터)의 기술 메타데이터를 Amazon DataZone으로 가져오는 데 사용되는 데이터 소스를 사용할 수 있습니다. Amazon DataZone의 현재 릴리스에서는 AWS Glue 및 Amazon Redshift에 대한 데이터 소스를 생성하고 실행할 수 있습니다. 데이터 소스를 생성하면 Amazon DataZone과 소스(AWS Glue Data Catalog 또는 Amazon Redshift Warehouse) 간에 연결을 설정하여 테이블 이름, 열 이름 및 데이터 유형을 포함한 기술적 메타데이터를 읽을 수 있습니다. 데이터 소스를 생성하면 Amazon DataZone에서 새 자산을 생성하거나 기존 자산을 업데이트하는 초기 데이터 소스 실행도 시작됩니다. 데이터 소스를 생성하는 동안 또는 데이터 소스가 성공적으로 생성된 후 데이터 소스 실행 일정을 지정하는 옵션도 있습니다.

데이터 소스 실행

Amazon DataZone에서, 데이터 소스 실행은 Amazon DataZone이 프로젝트 인벤토리에 자산을 생성하고 선택적으로 프로젝트 인벤토리 자산을 Amazon DataZone 카탈로그에 게시하기 위해 수행하는 작업입니다. 데이터 소스 실행은 자동화(데이터 소스가 처음 생성될 때 시작됨)하거나 예약하거나 수동으로 수행할 수 있습니다. 데이터 선택 기준을 사용하면 프로젝트 인벤토리 또는 Amazon DataZone 카탈로그에 수집할 기존 및 향후 데이터세트와 해당 인벤토리 또는 카탈로그 자산에 대한 메타데이터 업데이트 빈도를 미세 조정할 수 있습니다.

구독 대상

Amazon DataZone에서 구독 대상을 사용하여 프로젝트에서 구독한 데이터에 액세스할 수 있습니다. 구독 대상은 Amazon DataZone이 소스 데이터와의 연결을 설정하고 Amazon DataZone 프로젝트의 멤버가 구독한 데이터 쿼리를 시작할 수 있도록 필요한 허가를 생성하는 데 사용할 수 있는 위치(예: 데이터베이스 또는 스키마)와 필요한 권한(예: IAM 역할)을 지정합니다.

구독 요청

Amazon DataZone에서 구독 요청은 특정 자산에 대한 액세스 권한을 부여받기 위해 Amazon DataZone 프로젝트가 따라야 하는 프로세스입니다. 구독 요청은 승인, 거부, 취소 또는 부여할 수 있습니다.

자산

Amazon DataZone에서 자산은 단일 물리적 데이터 객체(예: 테이블, 대시보드, 파일) 또는 가상 데이터 객체(예: 뷰)를 제공하는 엔터티입니다.

애셋 유형

자산 유형은 Amazon DataZone 카탈로그에서 자산을 나타내는 방법을 정의합니다. 자산 유형은 특정 유형의 자산에 대한 스키마를 정의합니다. 자산이 생성되면 자산 유형(기본적으로 최신 버전)에 의해 정의된 스키마에 대해 검증됩니다. 자산 업데이트가 발생하면 Amazon DataZone은 새 자산 버전을 생성하고 Amazon DataZone 사용자가 모든 자산 버전에서 작업할 수 있도록 합니다.

비즈니스 용어집

Amazon DataZone에서 비즈니스 용어집은 자산과 연결될 수 있는 비즈니스 용어 모음입니다. 비즈니스 용어집은 다양한 데이터 분석 작업 전반에 걸쳐 조직 전체에서 동일한 용어와 정의를 사용하도록 하는 데 도움이 됩니다.

비즈니스 용어집의 용어는 자산 및 열에 추가하여 검색 중에 이러한 속성의 식별을 분류하거나 개선할 수 있습니다. 용어집은 자산과 연결된 메타데이터 형식의 필드에 대한 값 유형으로 선택할 수 있습니다. 자산의 메타데이터 양식 필드 값으로 특정 용어를 선택하면 사용자는 비즈니스 용어집 용어를 검색하고 관련 자산을 찾을 수 있습니다.

메타데이터 양식 유형

메타데이터 양식 유형은 자산이 인벤토리로 생성되거나 Amazon DataZone 도메인에 게시될 때 수집 및 저장되는 메타데이터를 정의하는 템플릿입니다. 메타데이터 양식 유형은 데이터 자산과 연결할 수 있습니다. 메타데이터 양식 유형은 도메인 관리자가 규정 준수 정보, 규제 정보 또는 분류와 같이 해당 도메인에 필요한 메타데이터 양식을 정의하는 데 도움이 됩니다. 이를 통해 도메인 관리자는 자산에 대한 추가 메타데이터를 사용자 지정할 수 있습니다. Amazon DataZone에는 asset-common-details-form-type, column-business-metadata-form-type, glue-table-form-type, glue-view-form-type, redshift-table-form-type, redshift-view-form-type, s3-object-collection-form-type, subscription-terms-form-type, 및 suggestion-form-type과 같은 시스템 메타데이터 양식 유형이 있습니다.

메타데이터 양식

Amazon DataZone에서 메타데이터 양식은 자산이 인벤토리로 생성되거나 Amazon DataZone 도메인에 게시될 때 수집 및 저장되는 메타데이터를 정의합니다. 메타데이터 양식 정의는 도메인 관리자가 카탈로그 도메인에서 생성합니다. 메타데이터 양식 정의는 부울, 날짜, 십진수, 정수, 문자열 및 비즈니스 용어집 필드 값 데이터 유형을 지원하는 하나 이상의 필드 정의로 구성됩니다.

도메인 관리자는 메타데이터 양식을 도메인에 추가하여 메타데이터 양식을 도메인의 자산에 적용합니다. 그런 다음 자산 게시자는 메타데이터 양식에 선택적 필수 필드 값을 제공합니다.

프로젝트

Amazon DataZone에서 프로젝트는 사용자 그룹이 프로젝트 인벤토리에서 자산을 생성하여 모든 프로젝트 구성원이 검색할 수 있도록 한 다음 Amazon DataZone 카탈로그에 자산을 게시, 검색, 구독 및 소비하는 다양한 비즈니스 사용 사례에 대해 협업할 수 있도록 합니다. 프로젝트 멤버는 Amazon DataZone 카탈로그에서 자산을 사용하고 하나 이상의 분석 워크플로를 사용하여 새로운 자산을 생성합니다. 프로젝트 구성원은 소유자, 기여자, 소비자, 관리인 및 최종 사용자일 수 있습니다.

프로젝트 생성/삭제

프로젝트 프로파일 생성/삭제 환경 프로파일 생성/삭제 환경 생성/삭제 프로젝트에 구성원 추가/삭제 검색 및 발견 메타데이터 양식/용어 생성/삭제 데이터 소스 실행 생성 및 데이터 수집 데이터 게시 구독 요청 구독 요청 승인/거부 Amazon Athena 및 Amazon Redshift에서 구독 데이터 읽기
소유자 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리
기고자 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 아니요
소비자 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리

아니요

아니요

아니요

아니요

아니요

뷰어 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리

아니요

아니요

아니요

아니요

아니요

아니요

스튜어드 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리 도메인 단위 구성원에서 관리

아니요

아니요

프로젝트 소유자는 다른 사용자를 소유자 또는 기여자로 추가하거나 제거할 수 있으며 프로젝트를 수정하거나 삭제할 수 있습니다. 기여자에 대한 기타 제한은 정책을 통해 정의할 수 있습니다. 사용자가 프로젝트를 생성하면 해당 프로젝트의 첫 번째 소유자가 됩니다.

환경

환경은 구성된 리소스(예: Amazon S3 버킷, AWS Glue 데이터베이스 또는 Amazon Athena 작업 그룹)의 모음으로, 해당 리소스에서 작동할 수 있는 지정된 IAM 위탁자 세트(할당된 기여자 권한 있음)가 있습니다. 각 환경에는 리소스에 액세스하고 구독 및 이행을 통해 데이터에 액세스할 수 있는 권한이 있는 사용자 위탁자가 있을 수도 있습니다. 환경은 AWS 서비스 및 외부 IDE 및 콘솔에 실행 가능한 링크를 저장하도록 설계되었습니다. 프로젝트 구성원은 환경 내에 구성된 딥 링크를 통해 Amazon Athena 콘솔 등과 같은 서비스에 액세스할 수 있습니다. 프로젝트의 SSO 사용자와 IAM 사용자는 특정 환경을 사용/액세스하도록 범위를 더 줄일 수 있습니다.

환경 프로파일

Amazon DataZone에서 환경 프로파일은 환경을 생성하는 데 사용할 수 있는 템플릿입니다. 환경 프로파일은 블루프린트를 사용하여 생성됩니다.

환경 프로파일을 사용하면 도메인 관리자가 블루프린트를 사전 구성된 파라미터로 래핑한 다음 데이터 워커는 기존 환경 프로파일을 선택하고 새 환경의 이름을 지정하여 원하는 수의 새 환경을 빠르게 생성할 수 있습니다. 이를 통해 데이터 워커는 프로젝트와 환경을 효율적으로 관리하는 동시에 도메인 관리자가 시행하는 데이터 거버넌스 정책을 충족할 수 있습니다.

청사진

환경이 생성되는 블루프린트는 환경이 속한 프로젝트의 AWS 도구 및 서비스(예: AWS Glue 또는 Amazon Redshift) 구성원이 Amazon DataZone 카탈로그의 자산으로 작업할 때 사용할 수 있는 도구를 정의합니다.

Amazon DataZone의 현재 릴리스에서는 다음과 같은 기본 블루프린트가 지원됩니다.

  • 데이터 레이크 블루프린트

  • 데이터 웨어하우스 블루프린트

  • Amazon Sagemaker 블루프린트

사용자 프로필

사용자 프로파일은 Amazon DataZone 사용자를 나타냅니다. Amazon DataZone은 다양한 목적으로 Amazon DataZone 관리 콘솔 및 데이터 포털과 상호 작용하기 위해 IAM 역할과 SSO 자격 증명을 모두 지원합니다. 도메인 관리자는 IAM 역할을 사용하여 새 Amazon DataZone 도메인 생성, 메타데이터 양식 유형 구성, 정책 구현을 포함하여 Amazon DataZone 관리 콘솔에서 초기 관리 도메인 관련 작업을 수행합니다. 데이터 워커는 Identity Center를 통해 SSO 기업 ID를 사용하여 Amazon DataZone Data Portal에 로그인하고 멤버십이 있는 프로젝트에 액세스합니다.

그룹 프로파일

그룹 프로파일은 Amazon DataZone 사용자 그룹을 나타냅니다. 그룹을 수동으로 생성하거나 엔터프라이즈 고객 Active Directory 그룹에 매핑할 수 있습니다. Amazon DataZone에서 그룹은 두 가지 목적을 수행합니다. 먼저 그룹은 조직도의 사용자 팀에 매핑할 수 있으므로 팀에 합류하거나 퇴근하는 신입 직원이 있을 때 Amazon DataZone 프로젝트 소유자의 관리 작업을 줄일 수 있습니다. 둘째, 기업 관리자는 Active Directory 그룹을 사용하여 사용자 상태를 관리하고 업데이트하므로 Amazon DataZone 도메인 관리자는 이러한 그룹 멤버십을 사용하여 Amazon DataZone 도메인 정책을 구현할 수 있습니다.

도메인 관리자

Amazon DataZone에서 Amazon DataZone 도메인을 생성하는 IAM 위탁자는 해당 도메인의 기본 도메인 관리자입니다. Amazon DataZone의 도메인 관리자는 도메인 생성, 다른 도메인 관리자 할당, 데이터 소스 및 구독 대상 추가, 프로젝트 및 환경 생성, 프로젝트 소유자 할당 등 도메인에 대한 주요 기능을 수행합니다.

게시자

Amazon DataZone에서 게시자는 Amazon DataZone 카탈로그에 자산을 게시하고 게시하는 자산의 메타데이터를 편집할 수 있습니다. 이 권한이 부여되면 게시자는 Amazon DataZone 카탈로그에 게시된 자산에 대한 구독 요청을 승인하거나 거부할 수 있습니다.

구독자

Amazon DataZone에서 구독자는 Amazon DataZone 카탈로그에서 자산을 찾고, 액세스하고, 소비하려는 Amazon DataZone 프로젝트입니다.

AWS 계정 소유자

Amazon DataZone에서 AWS 계정 소유자는 Amazon DataZone 도메인과 연결할 수 있는 AWS 계정을 활성화하는 AWS 계정에서 역할, 정책 및 권한을 생성합니다.